23
2025/10

RL Grokking:解决 pass@K=0 难题的新思路

一个长期以来的问题:大型语言模型究竟能否通过强化学习(RL)获得真正意义上的新推理策略,还是说 RL 仅仅是对其在预训练或后训练阶段已存在能力的放大? 一些研 ...

重新思考 RLVR 中的基线设计:用分位数替代均值,让大模型强化学习更加稳定

现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上,例如通过提升低概率词元(token)的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收 ...