大模型113
On-Policy Distillation 解读
大语言模型(LLM)的训练通常分为三个主要阶段:预训练(Pre-training)、中训练(Mid-training)和后训练(Post-training)。
...
Google DeepMind:从开源模型中提取 SFT 和 RL 训练数据
当前,大型语言模型(LLM)领域的一个共识是,模型的卓越能力不仅源于其庞大的参数规模和海量的预训练数据,更在很大程度上依赖于高质量的“对齐”数据。这些数据,通
...
南大 NeurIPS 2025:关于 LLM 内部概率与自洽性的理论研究
在众多大模型测试时扩展(Test-time Scaling)方法中,基于采样的(sampling-based)方法因其简单、通用且效果显著而成为主流。这类方法
...
LoongRL:面向长上下文推理的强化学习
强化学习,特别是通过从结果中学习(outcome-based learning)的方法,在提升模型在数学、代码等短上下文、具有明确验证标准的任务上的推理能力方
...
RL Grokking:解决 pass@K=0 难题的新思路
一个长期以来的问题:大型语言模型究竟能否通过强化学习(RL)获得真正意义上的新推理策略,还是说 RL 仅仅是对其在预训练或后训练阶段已存在能力的放大?
一些研
...
重新思考 RLVR 中的基线设计:用分位数替代均值,让大模型强化学习更加稳定
现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上,例如通过提升低概率词元(token)的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收
...
SFT 是通用能力的“杀手”还是“背锅侠”?亚马逊新作揭示其“灾难性遗忘”的真相
SFT 使用特定领域的“指令-回答”数据对预训练好的通用模型进行训练,使其适应特定任务的需求,例如在医疗、金融或法律等专业领域提供更精准的回答。这种做法在提升
...
腾讯优图提出免训练GRPO,在上下文空间中实现策略优化
我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的
...
告别“炼丹”,拥抱“工程”:Meta AI 万字长文详解大模型强化学习的 Scaling Law
我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的
...
Google DeepMind 为提示词优化提供理论保证,文末附优化实践启示
对于大型语言模型(LLM)的研究者和实践者而言,提示工程(Prompt Engineering)已成为与模型交互、引导其生成特定高质量输出的核心技术。无论是通
...