15
2025/10

上海 AI lab 提出 SIREN:重新思考 RLVR 中的熵正则

我们知道 RLVR 存在 熵坍缩与过早收敛的问题。具体来说,当模型的策略(policy)在探索过程中偶然生成一个正确答案并获得正奖励后,策略梯度会迅速强化这条 ...