让每一项优秀工作,被更多人看见:点击进入投稿通道

论文追踪 APP 推荐:DailyPapers


TL;DR

今天解读一篇来自小红书和中国科学院自动化研究所的论文《Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information》。在基于可验证奖励的强化学习(RLVR)中,为多步推理提供细粒度的信用分配(Credit Assignment)是一个核心难题。近期,在线自蒸馏(On-policy Self-Distillation)作为一种无需外部奖励模型的方法备受关注,它通过让模型向具有“特权上下文”(Privileged Context,如正确答案)的自身进行对齐,来获取词级别(Token-level)的指导信号。然而,作者观察到,这种方法在数学推理任务上往往无法稳定带来收益,甚至弱于标准的 GRPO 基线。

本文从条件逐点互信息(Conditional PMI)的视角诊断了这一现象。推导表明,自蒸馏的词级别奖励在数学本质上是特权上下文与当前生成词之间的互信息。这种信号存在严重的结构性偏差:它会奖励那些一旦知道答案就变得必然的“捷径标记”(如连接词、验证性断言),同时严厉惩罚模型在试错探索时输出的“思考标记”(如 Wait、Let、Maybe)。这种机制实际上压制了模型进行多步搜索的能力。

为了修正这一偏差,作者提出了反向自蒸馏(Anti-Self-Distillation, AntiSD)。该方法逆转了梯度优化的方向,将传统的逆 KL 散度下降替换为基于 Jensen-Shannon 散度(JSD)的上升。JSD 固有的数学形式自然地为奖励信号提供了非对称的边界限制。此外,配合一个自动校准的熵触发门控机制,防止模型在散度上升过程中出现分布崩溃。实验结果表明,在 4B 到 30B 规模的模型上,AntiSD 达到 GRPO 基线最高准确率所需的训练步数仅为后者的 1/2 到 1/10,并在 AIME 和 HMMT 等复杂推理基准上将最终准确率提升了最多 11.5 个百分点。

1. 引言

强化学习已经成为大语言模型(LLM)后训练阶段提升推理能力的主要途径,其中基于可验证奖励的强化学习(RLVR,如 GRPO 等算法)逐渐确立为主导范式。RLVR 的特点在于其奖励信号具有高度的稀疏性:通常在一段包含数千个标记(Token)的生成轨迹结束后,模型只能获得一个标量奖励(例如 1 或 0,代表答案正确或错误)。这种轨迹级别的稀疏奖励无法指出具体是中间的哪一步推理促成了最终的成功,留下了信用分配(Credit Assignment)的空白。

为解决词级别信用分配问题,现有的主要路径分为两类:一是训练独立的过程奖励模型(PRM)来为中间推理步骤打分;二是采用在线策略蒸馏(On-Policy Distillation, OPD),通过一个能力更强的外部教师模型提供词级别的模仿信号。然而,这两种方法都依赖于额外的外部模型。

近期的一系列研究试图解答“模型自身能否提供这种信用分配”的问题,并发展出了在线自蒸馏(On-policy Self-Distillation)的思路。其做法是将教师模型替换为学生模型自身,但给予教师模型特权上下文(Privileged Context)——通常是在训练阶段可以获取的经过验证的正确解答以及环境反馈。这种设计在指令遵循、工具使用等任务上展现了有效性。

但在数学推理任务上,在线自蒸馏的表现存在分歧。作者在 4B 到 30B 参数规模的模型族上进行测试,发现在 AIME 等具有挑战性的基准上,默认的自蒸馏方法通常无法超越强劲的 GRPO 基线。这种在通用任务上有效、在数学推理上失效的现象,构成了本文的核心动机。

2. 核心视角与诊断:条件互信息引发的结构性偏差

为了理解默认自蒸馏为何在数学任务上失效,作者深入剖析了其生成的词级别奖励信号,并在理论推导和经验观察层面建立了解释框架。

2.1 在线自蒸馏的形式化定义

对于一个自回归语言模型 ,给定问题 ,模型采样一条轨迹 。RLVR 框架提供一个验证奖励 。GRPO 算法对每个提示词采样 条轨迹,计算组内归一化的序列级优势函数(Advantage) 作为策略梯度的权重。

在在线自蒸馏中,模型额外接收一个词级别的信号。令 表示特权上下文(仅在训练时提供)。学生模型 负责生成轨迹;教师模型 在注入 的情况下对轨迹进行评分。

标准的自蒸馏损失是对每个词计算学生与教师之间的 KL 散度:

其中 表示停止梯度(Stop-gradient)。将此信号与序列级奖励结合,总的优势函数形式为:

这里的 就是 贡献到策略梯度更新中的词级别权重, 为混合权重。

2.2 词级别奖励即为条件 PMI

为了明确 的数学含义,作者给出了其闭式解(Closed-form)。令 ,定义它们的差值为

通过对每个词的 KL 散度项应用得分函数技巧(Score-function identity) ,可以推导出(Lemma 1):

因此,词级别的实际奖励信号

在自蒸馏设置中,学生和教师共享同一套参数 。利用贝叶斯公式展开, 可以被严格证明等价于特权上下文 与下一个生成的标记 之间的条件逐点互信息(Conditional PMI)(Lemma 2):

的正负代表了注入 是提高了()还是降低了()预测标记 的概率。默认的自蒸馏策略梯度以 作为奖励。

2.3 思考标记与捷径标记的分化

条件 PMI 的视角揭示了一个问题:当教师模型看到正确答案后,它变成了“先知”。这就导致 在具体真实数据上呈现出两极分化的特性。

通过观察图 2 中基于 Qwen3-4B-IT 模型在 AIME-25 数据上的表现,可以清晰地识别出两种极端的标记区域:

  1. 捷径标记(Shortcut tokens):深红色区域()。包括“Given”、“Assign”、“holds”、“succeeds”等词。因为教师已经看到了最终答案,一旦生成进入已知结论的结构,这些词的概率被大幅提高。
  2. 思考标记(Deliberation tokens):深蓝色区域()。包括“Wait”、“Let”、“Maybe”、“Alternatively”等词。当学生模型尝试重新审视备选方案或进行多步骤搜索时,已经“知道”固定答案的教师模型会认为这些试错是多余的,从而大幅压低这些词的概率。

由于默认自蒸馏使用 ,它实际上是在重奖捷径标记,并严惩思考标记。这解释了以往文献中观察到的现象:在线自蒸馏会导致模型回答变短。在数学推理中,这种短化并非良性压缩,而是结构性的捷径,它抑制了驱动问题搜索的推敲和试错步骤,从而导致性能退化。

此外,由于训练数据是从学生分布 中采样的,这造成了样本分布的不对称性(Asymmetric distribution):那些 的思考标记在批次中被过度采样,产生带有长尾的负反馈(个别词的 ),进一步放大了对推理过程的破坏。

3. 解决方案:反向自蒸馏 (AntiSD)

针对上述诊断中的两大问题(错误的信号极性、不对称的分布长尾),作者提出了反向自蒸馏(Anti-Self-Distillation, AntiSD),包含三个关键组件。

3.1 逆转梯度方向:下降变上升

既然默认的自蒸馏极性存在偏差,最直观的修正便是反转奖励信号。具体做法是放弃在目标上做梯度下降,改为执行散度上升(Ascent)。这样,词级别的奖励变成了负号,原本被压制的思考标记()将获得正奖励,而捷径标记()则受到惩罚,从而鼓励模型保持多步推敲的行为。

3.2 为什么选择 JSD 上升而非逆 KL?

如果仅仅是做逆 KL 散度上升,词级别奖励将直接正比于 。结合前文的分布不对称性,被过度采样的思考标记会在长尾处贡献无上限的巨大正奖励,导致优化过程不稳定。

作者引入了基于 Jensen-Shannon 散度(JSD) 的 f-散度上升。JSD 具有特殊的函数形态。对于 JSD 的 f-散度生成函数,应用得分函数技巧求导可得:

代入 ,推导出的 AntiSD 词级别优势函数为:

这个函数形态 具有极佳的理论性质(Lemma 5):

  • 保持了符号方向(即 ),从而实现了对思考标记和捷径标记的反向评价。
  • 附近,,这与 KL 散度上升在小差异时的行为一致。
  • 单侧有界性:对于所有的 。这意味着当 (即极端的思考标记)时,AntiSD 提供的正向奖励被硬截断在

这种形状自带优势边界(Advantage Bounding),完美吸收了极端长尾值(如 ),重新平衡了被过度采样的思考侧与采样不足但呈线性惩罚的捷径侧的梯度贡献。

3.3 熵触发门控(Entropy-triggered gate)

散度下降过程具有自然终止的特性(当师生分布相同时梯度为零),但散度上升过程则不具备这一性质。如果不加限制地一直拉大师生分布差距,教师模型提供的条件信息最终将退化。具体表现为教师模型在每个位置变得过度自信或彻底崩塌,此时计算出的 将被数值底噪主导,失去指导意义。

为了稳定训练,作者设计了一个由教师模型熵监控的触发门控机制。定义批次内的中位数教师熵为 。在训练前期的预热阶段(在不加入 AntiSD 损失时跑 5 步),记录稳定的预热熵均值 ,并设定阈值

门控状态 的更新逻辑为:

  • 时,开启门控()。
  • 时,关闭门控(),将混合权重 设为 0,防止崩溃。

3.4 与潜在奖励塑形的联系

从理论上看,这种无需外部验证器、仅通过上下文差异产生的过程奖励,本质上等同于模型自身的对数后验概率差。将整条轨迹的 累加,可以形成从轨迹开始到结束的抵消(Telescoping),其结果恰好等于序列级别的点互信息(Lemma 3):

这表明 AntiSD 的词级别信号可以被纳入势函数奖励塑形(Potential-based Reward Shaping)的框架中。这意味着它在提供细粒度梯度的同时,从理论上保证了不会改变任何底层稀疏奖励所对应的最优策略集合。

4. 实验结果与分析

实验采用 Qwen3 系列(8B、4B-Instruct、30B-A3B)和 Olmo-3 系列(7B-Instruct、7B-Think)五款模型,在包含 1.7 万题的 DAPO-Math 数据集上进行 200 步在线训练。对比基线包括仅用基础预训练模型、仅使用序列级优势函数的 GRPO(+GRPO)、使用默认正向自蒸馏(+SD)以及本文方法(+AntiSD)。

4.1 主实验结果:效率与上限的双重突破

表 1 展示了模型在 AIME 24/25/26、HMMT 2025(数学)以及 MinervaMath 上的准确率表现(取峰值均值步骤)。可以观察到三个核心现象:

  1. 惊人的训练加速:在全部五款模型上,AntiSD 达到 GRPO 最佳准确率所需的训练步数大幅减少。特别是在初始基础相对较弱的模型上,加速效果尤为显著(Qwen3-4B-IT 加速 10.0 倍,Olmo3-7B-IT 加速 9.5 倍)。即便在已经极强、提升空间有限的模型(如 Olmo3-7B-TK)上,依然保持了 2.0 倍的加速。这验证了词级别奖励 从训练第一步起就开始提供有效的信用分配,使得模型无需干等稀疏轨迹奖励在全网络中的缓慢传播。
  2. 超越基线的上限能力:AntiSD 的最终平均准确率在所有模型上全面超越 GRPO 基线,提升幅度在 2.1 到 11.5 个百分点之间。这与理论预测完全吻合:通过引导模型进行探索和推敲(Deliberation),AntiSD 解锁了单凭稀疏信号无法完成的高难度问题。
  3. 默认自蒸馏全面崩溃:如同理论分析所料,默认自蒸馏(+SD)在所有模型上的表现不仅弱于 AntiSD,甚至大幅低于纯 GRPO 基线。

为了确认准确率的提升是源于真正解决问题,而不是以牺牲生成多样性、在已知问题上堆叠概率为代价,作者给出了 HMMT 2025 数据集上的 pass@k 曲线图(图 3)。可以看到,AntiSD 相对 GRPO 的优势在各个 值下都保持稳定(例如在 Qwen3-8B 上, 领先约 13 分, 时领先约 7-10 分)。不收敛的曲线表明模型保持了充足的采样多样性,覆盖了 GRPO 采样 32 次也覆盖不到的搜索空间。

在 LiveCodeBench/Dolci-RLZero 数据集上的代码推理测试中,AntiSD 同样表现出正向效果,在 HumanEval+ 上提升 1.2 分,MBPP+ 上提升 2.3 分。虽然涨幅不及数学推理,但这表明即使在轨迹级奖励相对密集(基于通过的测试用例比例而非 0/1)的环境下,反转条件互信息带来的细粒度探索奖励依然具有通用性。

4.2 训练动态观测

图 4 展示了训练过程中各个指标的演变。AntiSD 启动极快,在约 30 步内,训练集奖励就攀升至 0.95 附近;而 GRPO 需要约 150 步才能到达相似区域,SD 则完全无法到达。

更重要的是熵动态(Entropy Dynamics)的变化。虽然 AntiSD 和 SD 都将师生分布耦合,但结果截然不同。在所有模型中,AntiSD 的教师和学生熵始终保持在稳定的中间带。反观默认的自蒸馏,在 Qwen3-4B-IT 约 80 步时,其教师和学生熵断崖式下跌至 0.1 nats 以下(吸收了捷径答案模板,过度自信),这导致生成的回答长度被直接钉死在 32K 上限,随后训练崩溃;而在 Olmo3-7B-IT 上,熵又膨胀超过 1 nats(向无用标记漂移)。这直观证明了 3.2 节所指出的双向失效模式正是由于信号方向错误导致的,而 AntiSD 通过反转符号纠正了这种退化。

5. 机制消融与分析

为了分离各个组件的具体贡献并验证假设,作者在稳定性最弱的 Qwen3-4B-IT-2507 模型上进行了细致的消融实验。

5.1 组件剔除分析

  1. 无教师模型(No-teacher)的崩溃:如果移除教师模型,词级别信号仅仅退化为学生模型对数概率自身的函数(即纯粹的自我强化),没有任何师生差异信息。图 5 中的橙色曲线显示,在没有特权上下文注入的情况下,所有模型都在 70 步左右发生教科书般的自我增强崩溃(Self-reinforcement collapse)。这一结果强有力地证实了,AntiSD 带来的增益确实源于 3.1 节所证明的特权信息恒等式(条件互信息),而不是由于对学生概率的通用塑形。
  2. 无门控(No-gate)的模型条件依赖:移除熵触发门控后(棕色曲线),情况因模型而异。在 Qwen 模型上,无门控版本初期点火甚至比标准 AntiSD 更快,但在 90 步附近由于教师吸收了答案模板、熵跌破零界线而发生崩溃。相反,在 Olmo 模型上它却能平稳跑满 200 步。这说明门控并非提高性能的核心,而是一种跨模型族群的保险策略,用于防止部分对熵收敛敏感的模型过早崩溃。

5.2 形状与组合方式消融

表 3 的定量数据显示了具体设计的不可替代性:

  • JSD 散度 vs. 逆 KL 散度:如果直接在逆 KL 上做上升,不仅无法带来收益,还会导致性能跌落(均值仅为 49.5,低于纯 GRPO)。这证实了长尾思考标记的不受限奖励确实具有破坏性,必须依靠 JSD 函数特有的软上限()来进行正则化约束。
  • 加法组合 vs. 乘法组合:作者将词级别信号附加到 GRPO 目标上的方式(加法)对比了另一种乘法缩放策略。结果表明加法组合在准确率上高出 6.3 分,并维持了 10 倍加速。乘法组合的问题在于,当序列级优势 较小时,词级别信号也会被缩减趋零,恰恰在最需要推敲和局部指导的时刻丢失了作用。

5.3 饱和阶段的持续学习(Continual Learning)

一个具有实用价值的问题是:AntiSD 必须从基础模型开始重新训练吗?如果手头已经有一个训练至饱和状态的 GRPO 权重,还能否获益?

作者在 Qwen3-8B 的第 200 步(GRPO 性能饱和点)加载权重并开启 AntiSD 继续训练 50 步。表 4 显示,接续训练的 AntiSD 仅仅花费了 30 步,就基本达到了从零训练版本的峰值性能(65.0 vs 65.7)。这表明 AntiSD 带来的推敲探索压力能够接管 GRPO 轨迹奖励无法继续推进的最后区域。

6. 讨论与相关工作

在线自蒸馏此前已被指控为一种会降低推理能力的“反应压缩(Response-compression)”机制,但以往研究多基于简单基准或仅仅将问题归咎于分布不匹配。本文的贡献在于,通过数学层面推导将其定性为条件逐点互信息偏差,精准定位了特权上下文是如何抑制思考标记、奖励捷径标记的,并通过梯度符号反转在源头予以修正,而无需像以往工作那样设计复杂的样本重加权或置信度过滤。

此外,由于 AntiSD 的词级别信号结构上相当于 ,这将其置于基于势函数的奖励塑形(Potential-based reward shaping)理论体系中。不同于隐式奖励方法(如 PRIME)或昂贵的人工标注过程验证器(PRM),本文获得过程奖励的形式是免训练的(Training-free)。

7. 总结

本文深入解析了在线自蒸馏中奖励信号的本质——条件逐点互信息。揭露了特权上下文引起的结构性偏差问题:即重奖捷径标记而压制用于探索的思考标记。通过实施反向自蒸馏(AntiSD),从训练第一步开始进行基于 JS 散度上升的逆转优化,并配合自校准的熵门控以防范分布漂移,模型能够自主激发推敲与多步搜索行为。该方法在多款十亿参数级模型中展现了卓越的效能,大幅缩减了强化学习所需的步数,并提升了模型的推理上限。

这种免标注、利用模型自身条件互信息差值作为过程奖励的方法,为模型从自身信号实现认知自举(Bootstrapping)提供了清晰的理论解释和易操作的实践框架。

当然,该研究也存在一些局限性与扩展空间。目前的条件互信息特性主要是针对单步轨迹推导的局部度量,且奖励形式局限于正确与否的标量。对于更复杂的代理系统(Agentic settings)、涉及多轮工具调用,或是包含过程评价和局部得分的特权上下文设计,条件 PMI 假设是否依然占据主导地位,将是未来值得探讨的方向。

更多细节请阅读原论文。