现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上,例如通过提升低概率词元(token)的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收敛的问题,但它们往往忽略了问题的另一面,即对熵的无约束增长同样是有害的。这种单边调控的策略,可能将训练推向“熵爆炸”(entropy explosion)。此时,策略分布的随机性过高,导致学习信号被噪声淹没,梯度更新变得不稳定,信用分配(credit assignment)失效,训练过程停滞不前。

我们如何才能在 RLVR 训练中实现对策略熵的有效双向调控,使其维持在一个既能保证充分探索又能实现稳定学习的“最优区域”(productive range)内?

来自中科大的论文《Quantile Advantage Estimation for Entropy-Safe Reasoning》表明,RLVR 训练中的熵调节可被重述为一个基线设计问题,因此提出了分位数优势估计(QAE):在组级别以 K 分位数替代传统的均值奖励基线,从而动态调节策略熵。该工作核心思想是,基线的选择直接决定正/负优势的分配比例,进而影响探索行为

  • 较低的 K 值:更多样本获得正优势,鼓励模型“利用”已有成功模式,降低熵;
  • 较高的 K 值:更少样本获得正优势,促使模型“探索”新行为,提高熵。
  • 论文标题:Quantile Advantage Estimation for Entropy-Safe Reasoning
  • 论文链接:https://arxiv.org/pdf/2509.22611

1. 背景

1.1 从 PPO 到值函数无关的 RLVR

Proximal Policy Optimization (PPO) 是强化学习领域的基石算法之一,它通过对策略更新步长进行裁剪(clipping),确保了训练的稳定性。其目标函数如下:

其中, 是概率比, 是优势函数,通常由一个需要额外训练的值函数网络(value network)来估计。

为了简化训练流程并摆脱对值函数网络的依赖,研究者们提出了值函数无关的 RL 方法。其中,Group Relative Policy Optimization (GRPO) 是一个代表。对于每个问题(query),GRPO 会从当前策略 采样一组 个答案(responses)。每个答案 会根据其与标准答案 的正确性被赋予一个二元奖励 。第 个样本的优势值 通过将奖励 与该组样本的平均奖励进行比较并标准化得到:

Dynamic Sampling Policy Optimization (DAPO) 是 GRPO 的一个重要改进,也是目前效果比较好的值函数无关 RLVR 方法之一。它移除了 KL 散度惩罚,引入了非对称的裁剪区间 ,并保证每个训练批次中都同时包含正样本和负样本。这些设计使得 DAPO 在多个推理任务上取得了优异表现。

然而,无论是 GRPO 还是 DAPO,它们都共享一个核心机制:使用样本均值作为优势估计的基线。

1.2 熵坍塌与熵爆炸

策略熵是探索(exploration)与利用(exploitation)这对矛盾的量化体现。

  • 熵坍塌 (Entropy Collapse) :当策略熵过低时,模型变得过于确定,只会在少数几个高概率的推理路径上进行采样。这会导致探索不足,模型可能过早地收敛到一个局部最优解,无法发现更优的、但初期概率较低的解题策略。这在文献中已有充分的讨论。

  • 熵爆炸 (Entropy Explosion) :当策略熵过高时,模型的行为变得过于随机。这会导致信用分配变得困难,因为奖励信号被大量的随机探索行为所稀释。梯度充满了噪声,学习过程变得不稳定,性能提升缓慢甚至停滞。这个问题在以往的研究中相对被忽视,但它与熵坍塌同等致命。

有效的 RLVR 训练,其目标并非是最大化或最小化熵,而是将熵维持在一个“最优区域”内。

图 1 熵与性能在 Qwen3-8B-Base 上的动态关系
图 1 熵与性能在 Qwen3-8B-Base 上的动态关系

上图直观地展示了这一问题。左图显示了标准的 DAPO 训练过程。为了防止初期熵坍塌,DAPO 采用了 Clip-Higher 机制。然而,这导致了在训练早期(10-80步)出现了一个急剧的熵尖峰(entropy spike),即熵爆炸。虽然短期内性能有所提升,但随后熵值持续在高位剧烈波动,而模型性能则陷入了瓶颈,无法持续改进。右图则展示了引入本文提出的 QAE 方法后的效果:策略熵被稳定地控制在一个平衡的探索区间内,没有出现剧烈的尖峰,同时模型性能获得了持续的增长。这表明,仅仅避免熵坍塌是不足够的,抑制熵爆炸对于实现持续学习至关重要

2. 熵爆炸的原因

论文通过一系列实验和分析,层层深入,定位了熵爆炸的原因。他们以 DAPO 作为代表性案例,特别是其为防止熵坍塌而设计的 Clip-Higher 机制,来揭示细粒度、词元级控制的内在缺陷。

观察 1:词元级控制无法保证持续的推理收益

研究发现,在训练初期,一种被称为“灵感时刻”(aha-moment)的拟人化词元(如 “wait”, “perhaps” 等)的频率,与模型的解题成功率(pass@1)呈现正相关。Clip-Higher 机制通过放大这类词元的概率,确实在早期引发了性能的快速提升。然而,如图2所示,在训练大约150步之后,这种相关性消失了。拟人化词元的频率回落,而模型性能也停滞不前。这说明,虽然词元级的干预能够短期内避免熵坍塌并提升性能,但它引发的熵爆炸最终会限制模型的扩展能力。

图 2 DAPO 在 Qwen3-8B 上的训练动态
图 2 DAPO 在 Qwen3-8B 上的训练动态

观察 2:词元级控制导致同质化、低质量的探索

为了探究性能停滞的原因,论文分析了高熵词元的分布随训练的演变过程(图3)。在训练早期(第20步),模型使用的探索性词元是多样化的(例如 "wait", "perhaps")。然而到了第80步,词元的使用开始集中于少数几个公式化的、断言式的词汇上(例如 "so", "let")。这表明,尽管整体策略熵很高,但探索的多样性实际上是下降了。模型陷入了少数几个固定的推理模板中,而不是探索真正新颖的思路。这种同质化的探索是无效的,无法带来持续的性能提升。

图 3 DAPO 训练过程中高熵词元的使用演变(20/80/200步)
图 3 DAPO 训练过程中高熵词元的使用演变(20/80/200步)

观察 3:熵爆炸由负优势样本不成比例地驱动

这是论文最为关键的发现之一。作者将策略熵的动态按样本优势值的符号进行了分解。如图4(左)所示,他们发现熵的增长主要由那些获得负优势的样本所贡献。这些负优势样本在训练早期引发了最剧烈的熵增,并占据了熵增长的主要部分。相比之下,正优势样本的熵则保持相对稳定。

这一现象的机制是什么?在值函数无关的 RL 中,优势值是相对的。当数据集中出现少数奖励异常值(即成功的样本)时,均值基线会被拉高。这导致许多原本“还不错”的、甚至包含部分正确推理的失败样本,被错误地赋予了强烈的负优势。策略更新为了惩罚这些样本,会大幅改变其概率分布,从而引发剧烈的、通常是无效的“过度探索”,最终导致熵爆炸。

图 4 分位数基线对权重和熵动态的重塑
图 4 分位数基线对权重和熵动态的重塑

观察 4:调整词元级超参数是治标不治本

有人可能会认为,既然是更新幅度过大导致的问题,那么通过调整词元级的裁剪超参数 是否能解决问题?表1的结果否定了这一想法。实验显示,在 0.20 到 0.28 的范围内调整 ,对最终性能的影响很小,且瓶颈期问题依然存在。这进一步证明,问题不在于更新的“量级”,而在于更新的“方向”和“对象”出了问题。

表 1 DAPO 中不同 ε_high 值对应的性能

通过以上分析,论文得出了一个结论:

  1. 细粒度的词元级控制,虽然能防止熵坍塌,但会无意中引发限制性能的熵爆炸。
  2. 熵爆炸的力学根源在于优势基线的设计。具体而言,均值基线在处理奖励异常值时系统性地错误处理了负优势样本
  3. 因此,这是一个基线设计缺陷,而非词元级的超参数调优问题。

3. 分位数优势估计 (QAE)

在准确定位了问题根源之后,论文提出了一个极其简洁而深刻的解决方案:用分位数(quantile)替代均值(mean)作为优势估计的基线。这个方法被称为分位数优势估计(Quantile Advantage Estimation, QAE)。

3.1 QAE 的公式与直觉

对于一个给定的问题 和一组 个采样的答案 ,我们首先定义该组样本的经验成功率

QAE 的核心是引入一个由单个超参数 控制的 -分位数基线 。对于二元奖励,这个基线可以简化为一个关于成功率 的阈值函数:

然后,我们使用这个新的基线来定义标准化优势

其中 是一个防止分母为零的小常数。

这个简单的改动,将学习过程巧妙地划分为了两个由任务难度(以 为界)决定的不同机制:

  1. 困难任务 (Hard, exploitation-focused), :

    • 此时基线
    • 对于不正确的答案 (),优势
    • 对于稀有的正确答案 (),优势
    • 效果:系统只对稀有的成功进行奖励,而忽略所有的失败。这是一种利用驱动的模式,旨在强化和巩固那些刚刚萌芽的正确推理路径,同时避免了对大量失败样本的无效惩罚所导致的熵爆炸。
  2. 简单任务 (Easy, exploration-focused), :

    • 此时基线
    • 对于正确的答案 (),优势
    • 对于剩余的错误答案 (),优势
    • 效果:系统只对剩余的失败进行惩罚,而忽略所有的成功。这是一种探索驱动的模式,旨在修正那些在已经基本掌握的任务上仍然存在的“残余”错误模式,从而推动模型向完美解决问题的方向探索,避免了因满足于高成功率而导致的熵坍塌。

3.2 梯度分析

为了更深入地理解 QAE 的工作原理,论文从梯度的视角进行了分析。根据 DisCO (Li et al., 2025) 的研究,GRPO 的目标函数可以写成如下的判别式形式:

这里的“查询权重” 是一个关于 的对称的、钟形的函数。它意味着 GRPO/DAPO 会将最多的学习资源分配给那些中等难度()的任务,而对非常简单或非常困难的任务则分配较少的权重。

Proposition 4.1 (Quantile-regulated objective):
论文证明,在同样的判别式框架下,使用 QAE 的目标函数(忽略常数因子)等价于:

推导过程简述:
这个结果的推导可以从 GRPO 的一般目标函数出发。首先,将 QAE 的标准化优势 代入。由于 的分段特性,我们可以将期望按 的两个区间分开。

  1. 时,。只有 的样本有非零优势,其值为 (假设 很小, 近似为 )。此时,目标函数中只剩下对正样本的更新项。
  2. 时,。只有 的样本有非零优势,其值为 。此时,目标函数中只剩下对负样本的更新项。

将这两个区间的目标函数与指示函数 结合,并整理权重项,即可得到上述 的表达式。

与 GRPO 相比,QAE 做了两个关键的改变:

  1. 选择性地“屏蔽”更新:基于任务难度,QAE 在每个区间内只保留了判别器的一项(要么是正样本的 ,要么是负样本的 )。
  2. 非对称的、单调的权重:QAE 用非对称的、单调的权重 替换了对称的钟形权重。这意味着 QAE 会放大来自极端情况的信号:对于困难任务,它会放大稀有成功的重要性;对于简单任务,它会放大残余失败的重要性。

这一转变,将学习机制从“关注中等难度问题”转变为“放大来自困难成功和简单失败的信号”,这是一种更高效的学习策略。

3.3 理论分析

论文进一步从理论上证明了 QAE 能够提供双向的熵安全(two-sided entropy safety)。

在一个简化的单步(bandit)设定下,策略熵的一阶变化量 与一个协方差项成正比(Cui et al., 2025):

其中 是优势。可以证明,熵变 是关于基线 的一个严格单调递增函数。这意味着基线 就如同一个线性旋钮,可以直接控制熵增减的幅度。

Proposition 4.2 (Two-regime entropy safety of K-quantile):
基于上述单调性,论文得出了关于 QAE 的熵安全性的核心结论:

  1. 低成功率 (防爆 proof): 如果 ,那么 QAE 选择的基线是 。因为 时取最小值,所以 QAE 在这种情况下最小化了单步熵增。这有效地抑制了由负优势样本驱动的熵爆炸。

  2. 高成功率 (防塌 proof): 如果 ,那么 QAE 选择的基线是 。因为 时取最大值,所以 QAE 在这种情况下最大化了单步熵增。这有效地防止了模型在接近完全掌握任务时因过于自信而导致的熵坍塌。

相比之下,现有的词元级控制方法只能通过缩放更新步长来间接影响熵,但它们无法改变响应级别(response-level)的基线 本身,因此无法提供这种理论上保证的双向熵安全。

4. 实验

论文通过在多个标准的数学推理基准(AIME'24, AIME'25, AMC'23)上进行的大量实验,验证了 QAE 的有效性。

4.1 总体性能

AIME'24/'25 和 AMC'23 基准上的总体性能
AIME'24/'25 和 AMC'23 基准上的总体性能

表2 的结果清晰地显示,将 QAE 作为一个“即插即用”的模块,应用在多种基线方法(Clip-Higher, CLIP-Cov, KL-Cov)和不同尺寸的模型(Qwen3-8B, Qwen3-30B-A3B)上时,都能带来 pass@1 指标上的一致性提升,同时保持 pass@16 性能相当或更好。这证明了 QAE 的普适性和鲁棒性。它并非一种与特定方法强绑定的技巧,而是一种基础性的改进。

4.2 训练动态与熵安全

训练动态与稀疏性
训练动态与稀疏性

图5 提供了对训练过程更细致的观察:

  • 性能曲线 (a): 在 AIME'24 任务上,标准 DAPO 的 pass@1 性能在约100步后就陷入停滞,而 QAE 则展现了持续的、稳定的性能增长,显示出更高的样本效率。
  • 熵分解 (b): 该图证实了理论分析。DAPO 的熵爆炸(红色虚线)主要由负优势样本驱动,而 QAE(实线)有效地抑制了这一部分的熵增长,将整体熵控制在了一个平稳的范围内。
  • 响应级稀疏性 (c): 这是一个引人注目的结果。在使用 QAE 的训练过程中,全程约有 80% 的样本接收到的优势值为零!这意味着 QAE 将更新集中在了那 20% 最具信息量的样本上(即困难任务中的成功样本和简单任务中的失败样本)。这种“80/20法则”解释了 QAE 为何能实现更稳定和高效的训练。它避免了在大量无信息或误导性样本上浪费计算资源。

4.3 消融实验

为了解构 QAE 的两个核心机制(在困难任务上屏蔽负样本,在简单任务上屏蔽正样本)各自的贡献,论文设计了精巧的消融实验。他们构建了两个“单边”的目标函数:POS-MASK(只保留对困难任务中正样本的更新)和 NEG-MASK(只保留对简单任务中负样本的更新)。

性能与消融实验
性能与消融实验

实验结果(图6 b,c)与理论分析高度吻合:

  • 当高位裁剪较弱(),系统主要的失效模式是熵爆炸时,NEG-MASK(抑制负样本更新)的性能与完整的 QAE 非常接近,且远超 POS-MASK。这说明在这种情况下,抑制熵爆炸是性能提升的关键
  • 当高位裁剪较强(),系统面临更大的熵坍塌压力时,情况则反转过来。POS-MASK(鼓励探索)的性能超过了 NEG-MASK。这说明在这种情况下,防止熵坍塌成为了主要矛盾

完整的 QAE 在两种情况下都表现稳健,证明了其双机制设计的必要性和有效性。它能根据不同的训练状态和超参数配置,自适应地对抗当时主要的风险。

QAE 的核心是一个单一的超参数 。论文给出了一个操作性的指导原则:根据基线策略的熵状态来选择 。如果基线策略熵较低,有坍塌风险,可以选择较大的 (如0.6)来引入更多样性;如果熵较高,有爆炸风险,则选择较小的 (如0.4)来抑制探索。由于实验中使用的所有方法都包含 Clip-Higher,本身有熵增倾向,因此默认使用 是一个鲁棒的选择。

5. 总结

QAE 的核心理念:关注“谁学”,而非“学多少”。传统方法通过调整更新量级(例如,裁剪梯度)来控制学习过程。QAE 的视角则完全不同,它认为选择哪些样本进行学习(selection),比控制这些样本的学习强度(magnitude)更为根本。通过只让约20%的“关键少数”样本参与更新,QAE 实现了更稳定、更高效的扩展行为。


往期文章: