15

2025/10

上海 AI lab 提出 SIREN：重新思考 RLVR 中的熵正则

我们知道 RLVR 存在熵坍缩与过早收敛的问题。具体来说，当模型的策略（policy）在探索过程中偶然生成一个正确答案并获得正奖励后，策略梯度会迅速强化这条 ...

16 小时前

11 0