RL Grokking:解决 pass@K=0 难题的新思路
一个长期以来的问题:大型语言模型究竟能否通过强化学习(RL)获得真正意义上的新推理策略,还是说 RL 仅仅是对其在预训练或后训练阶段已存在能力的放大?
一些研
...
重新思考 RLVR 中的基线设计:用分位数替代均值,让大模型强化学习更加稳定
现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上,例如通过提升低概率词元(token)的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收
...
SFT 是通用能力的“杀手”还是“背锅侠”?亚马逊新作揭示其“灾难性遗忘”的真相
SFT 使用特定领域的“指令-回答”数据对预训练好的通用模型进行训练,使其适应特定任务的需求,例如在医疗、金融或法律等专业领域提供更精准的回答。这种做法在提升
...
腾讯优图提出免训练GRPO,在上下文空间中实现策略优化
我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的
...
告别“炼丹”,拥抱“工程”:Meta AI 万字长文详解大模型强化学习的 Scaling Law
我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的
...
Google DeepMind 为提示词优化提供理论保证,文末附优化实践启示
对于大型语言模型(LLM)的研究者和实践者而言,提示工程(Prompt Engineering)已成为与模型交互、引导其生成特定高质量输出的核心技术。无论是通
...
Sanjeev Arora 团队新作 STAT:破解 SFT 饱和瓶颈,通过“技能驱动”让模型性能再提升7.5%
当我们试图通过在特定领域(如数学推理)的数据集上进行监督微调(Supervised Fine-Tuning, SFT)来提升模型性能时,常常会观察到一个性能瓶
...
上海 AI lab 提出 SIREN:重新思考 RLVR 中的熵正则
我们知道 RLVR 存在 熵坍缩与过早收敛的问题。具体来说,当模型的策略(policy)在探索过程中偶然生成一个正确答案并获得正奖励后,策略梯度会迅速强化这条
...
Meta AI 提出 RECAP:真正的稳健推理源于纠正错误,而非模仿正确
对于大型推理模型(Large Reasoning Models, LRMs)而言,安全对齐(Safety Alignment)是一个核心且极具挑战性的研究课题
...
ExGRPO:超越在线策略,让大模型从“经验”中高效学习推理
GRPO 或其变体等在线策略算法,遵循着一个严格的“生成-更新-丢弃”循环:模型根据当前策略生成一批经验数据(即解题轨迹),使用这批数据进行一次或几次梯度更新
...
