23

2025/10

RL Grokking：解决 pass@K=0 难题的新思路

一个长期以来的问题：大型语言模型究竟能否通过强化学习（RL）获得真正意义上的新推理策略，还是说 RL 仅仅是对其在预训练或后训练阶段已存在能力的放大？一些研 ...

8 小时前

6 0

现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上，例如通过提升低概率词元（token）的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收 ...

1 天前

21 0