在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimization) ,揭示了其内在的局限性:

  1. 零梯度问题(Zero Gradients Problem):GRPO 在计算优势值时,仅考虑当前批次(step)内生成的响应。当一个 prompt 生成的所有响应获得完全相同的奖励时(例如,全部正确或全部错误),经过标准化处理后,所有响应的优势值都将变为零。这意味着整个 prompt 的数据无法对模型参数更新做出任何贡献,造成了严重的样本浪费。随着模型训练的深入,其输出的一致性会增加,导致零梯度问题愈发频繁。

  2. 固定的裁剪边界(Fixed Clipping Bounds):与 PPO 类似,GRPO 为了维持训练稳定,会使用一个固定的超参数 来裁剪新旧策略之间的概率比率(probability ratio),即 必须在 的范围内。这一“一刀切”的策略存在一个根本性缺陷:它过度限制了模型对低概率(rare)但可能极其重要(例如,一个新颖且正确的解题思路)的 token 的探索。对于一个 很低的 token,即使它是正确的,为了将概率比率控制在 以内, 的提升空间也极为有限,从而抑制了模型学习新知识和探索多样化推理路径的能力。

为了应对这些挑战,DAPO 提出了两种策略:其一,通过“Clip-Higher”策略放宽上界,缓解熵过早崩溃;其二,采用“动态采样(Dynamic Sampling)”策略,即当检测到一个 prompt 产生的所有响应奖励相同时,就直接丢弃这些样本,并重新生成,直到获得一个包含不同奖励的样本批次。

然而,DAPO 的解决方案又引入了新的问题:

  • 响应级别的低效性(Response-Level Inefficiency):动态采样的“丢弃-重生成”机制,虽然保证了每个用于训练的批次都含有非零梯度的样本,但其代价是显著降低了采样效率,导致训练收敛速度变慢,消耗了大量的计算资源。

  • Token 裁剪赤字(Token Clipping Deficit):DAPO 虽然调整了裁剪边界,但其本质上仍是一种对所有 token 统一的策略,未能从根本上解决固定边界对于不同概率 token 的不公平性问题。

此外,还有 GSPO (Group Sequence Policy Optimization) 等方法,尝试将裁剪从 token 级别提升到序列级别,但这种做法可能因为单个 token 的问题而丢弃整个有价值的序列,同样存在信息浪费的问题。

在这样的背景下,百川的研究者提出了《DCPO: Dynamic Clipping Policy Optimization》一个全新的解决方案,旨在从根本上解决现有 RLVR 方法在探索效率奖励稳定性方面的核心矛盾。DCPO 通过两项关键创新——动态自适应裁剪(Dynamic-Adaptive Clipping, DAC)平滑优势标准化(Smooth Advantage Standardization, SAS),构建了一个更高效、更稳定的 RLVR 训练框架。

  • 论文标题:DCPO: DYNAMIC CLIPPING POLICY OPTIMIZATION
  • 论文链接:https://arxiv.org/pdf/2509.02333

1. DCPO 的核心创新

DCPO 的设计是精准且自适应。它没有采用 DAPO 那样“一刀切”地丢弃整个样本批次的激进策略,而是通过更精细的数学设计,在 token 级别和 advantage 级别对学习过程进行优化。其核心贡献可以分解为两大模块:动态自适应裁剪(DAC)和平滑优势标准化(SAS)。

1.1 动态自适应裁剪(DAC)

问题根源

让我们再次审视 PPO 和 GRPO 中使用的概率比率裁剪。其目的是防止单次更新步长过大,导致策略崩溃。约束条件为:

其中, 是在 token 级别的概率比率。这个约束意味着,对于任意一个 token,新策略对其的预测概率不能与旧策略偏离太多。

现在,我们考虑一个场景:模型正在解决一个复杂的数学问题,其中某一步需要一个不常用但至关重要的符号或数字(我们称之为“稀有 token”)。在旧策略 中,这个 token 的概率可能非常低,比如 。如果这是一个正确的 token,我们希望新策略 能够大幅提升它的概率。然而,在固定裁剪的约束下,新概率的最大值被限制为 。如果 ,那么新概率最大也只能是 。从 的提升,对于整个策略的优化来说几乎是杯水车薪。

这暴露了固定裁剪的本质缺陷:它对所有 token 施加了相同的相对变化约束,却忽略了它们的绝对概率基础。 对于高概率 token,小范围的相对变化是合理的;但对于极低概率的 token,这种约束会阻止模型从罕见但正确的经验中学习的机会,从而导致探索不足和学习效率低下。

DAC 的理论基础

DCPO 的作者们提出了一个洞见:裁剪边界本身不应该是固定的,而应该与 token 自身的概率动态关联。他们将约束条件从对概率比率 的直接约束,转变为一个同时考虑了比率 和新策略概率 的约束。其核心思想体现在以下不等式中(为简化符号,我们将 分别代表新旧策略的 token 概率):

这个公式的直观解释是:我们约束的是概率变化的绝对量,这里原论文公式写作 是为了后续推导方便,其精神是相似的,即让约束与概率值本身挂钩)而非相对比率。对于一个概率很低的 token(即 都很小),即使其概率比率 很大,乘积 也可能很小,从而满足约束。反之,对于一个高概率的 token,即使 只有微小的变化,这个乘积也可能很大,因此会受到更严格的限制。

这种设计契合了强化学习的探索需求:在低概率区域(未知领域)允许更大胆的探索步伐,而在高概率区域(已知领域)则采取更谨慎的微调。

DAC 边界的推导过程

接下来,我们看一下 DAC 是如何从上述理论推导出具体的、可操作的裁剪边界。

首先,将 代入约束不等式 ,我们得到:

这里,DCPO 为上下界分别设置了不同的超参数 ,以提供更大的灵活性。这个不等式是关于 的一个二次不等式:

解这个关于 的二次不等式,我们可以得到 的可行域。经过一系列代数运算,并考虑到概率比率 必须为非负,最终可以得到 的闭式解边界,也就是论文中的公式 (4):

这个公式看起来复杂,但其行为趋势非常清晰:

  • 当旧策略概率 趋近于 0 时,分母上的 使得 这一项变得巨大。这意味着 的上界会随着 的减小而显著增大(具体行为是与 成正比)。这正是我们所期望的——为低概率 token 提供了广阔的探索空间。
  • 当旧策略概率 趋近于 1 时,根号下的项趋近于常数,使得整个边界收敛到一个较为固定的区间,与 GRPO 的行为类似,保证了在高概率区域的稳定性。

此外,为了防止 过大导致梯度爆炸等不稳定问题,DCPO 还借鉴了 Dual-clipping 的思想,设置了一个硬性的最大上界,例如 10。

DAC vs. 固定裁剪

论文中的图 4 直观地展示了 DAC 与固定裁剪在行为上的巨大差异。

  • 在固定裁剪(GRPO)中,允许的新概率 与旧概率 之间形成一个由直线 包围的狭长区域。当 很小时,这个允许的绝对概率空间 也被压缩得非常小。
  • 在动态自适应裁剪(DCPO)中,这个允许区域不再是线性的。对于低 值,上界曲线显著向上弯曲,为 提供了远超固定裁剪的增长空间。这片额外多出来的“探索区域”,正是 DCPO 能够更有效利用稀有但关键的 token 信息的关键所在。
裁剪边界对比
裁剪边界对比

通过 DAC,DCPO 在不牺牲稳定性的前提下,极大地解放了模型的探索潜力,使得策略优化过程更加高效和有的放矢。

1.2 平滑优势标准化(SAS)

问题的根源

如前文所述,GRPO 和 DAPO 都依赖于当前 step 的奖励来计算优势值。具体来说,对于第 步、第 个响应的奖励 ,其优势值为:

其中 分别是第 步所有 个响应奖励的均值和标准差。

这种“瞬时标准化”方法的最大问题在于其高方差。由于 LLM 的采样过程具有随机性,连续两个 step 之间,对于同一个 prompt,生成的响应集合的奖励分布可能发生剧烈波动。

举个例子:假设一个 prompt,模型在第 步生成的 4 个响应奖励为 [1, 1, 0, 0](两个正确,两个格式对但答案错)。此时均值为 0.5,标准差也为 0.5。那么奖励为 0 的响应,其标准化后的优势值为
而在第 步,模型生成的 4 个响应奖励变为 [0, 0, -1, -1](两个答案错,两个格式错)。此时均值为 -0.5,标准差为 0.5。那么奖励为 0 的响应,其优势值变为

对于同一个奖励值 0,模型在前一步收到的梯度信号是强烈的负向(惩罚),在下一步却收到了强烈的正向(奖励)信号。这种前后矛盾、剧烈波动的学习信号会严重干扰优化过程,使得训练不稳定,模型难以收敛到最优策略。

SAS 的核心思想

DCPO 提出的见解是,对于一个给定的 prompt,其背后蕴含的奖励“真实分布”在整个训练过程中应当是相对稳定的。瞬时的波动更多是采样随机性带来的噪声。因此,一个更稳健的优势估计方法,应该同时考虑当前信息和历史信息

SAS(Smooth Advantage Standardization)应运而生。它引入了累积标准化(Cumulative Standardization) 的概念。即,在计算第 步的优势时,我们不仅考虑当前 step 的奖励统计量,还考虑从第 1 步到第 步为止,该 prompt 生成的所有响应的奖励统计量()。

仅使用累积标准化会让模型对策略变化的响应过于迟钝,而仅使用瞬时标准化又过于嘈杂。SAS 的精妙之处在于它设计了一个平滑机制来动态地权衡这两者。

SAS 的平滑函数与最终优势计算

SAS 定义了两个平滑函数,分别代表以“当前”为重和以“历史”为重的两种视角:


其中, 是瞬时标准化优势, 是累积标准化优势。

  • 在训练初期( 很小),主要依赖累积优势(历史),随着训练的进行( 变大),权重逐渐偏向瞬时优势(当前)。这反映了一种“先稳定,后适应”的策略。
  • 则相反,在训练初期侧重当前,后期侧重历史,将当前的表现视为对全局分布的微调。

最后,为了进一步增强稳定性,DCPO 采取了一种保守的更新策略,选择两个平滑优势中绝对值较小的一个作为最终的优势值:

这种设计有效地滤除了因采样噪声导致的极端优势值,确保了梯度更新的方向和大小更加平稳和可靠。

通过 SAS,DCPO 解决了 GRPO 的零梯度问题。即使当前 step 的所有奖励都相同(),只要历史奖励存在方差, 依然可以提供有意义的、非零的优势信号,从而保证了数据能够被有效利用,极大地提升了样本效率。

1.3 Only Token Mean (OTM) 损失函数

除了两大核心创新,DCPO 还在损失函数层面进行了优化,提出了 OTM Loss。

  • GRPO 的序列级别均值损失 (SLM) :将所有响应的损失加总后,再除以响应数量 。这会稀释掉单个高质量响应的信号强度。
  • DAPO 的 Token 级别均值损失 (TLM) :将一个批次内所有 token 的损失加总后,再除以总 token 数。论文中举了一个例子:响应 A 优势为 1,长度 500;响应 B 优势为 0.5,长度 1500。TLM 会给优势更低的 B 分配更高的权重(),这显然是不合理的,因为它破坏了响应之间的相对重要性。

DCPO 的 OTM (Only Token Mean) 损失 则采取了一种更合理的方式:损失首先在单个响应内部对所有 token 取平均,然后再将所有响应的损失直接相加(或对批次取平均)。其形式如下:

这种方式既保证了在单个响应内,每个 token 的贡献是平等的,又在响应之间,完整地保留了由优势值 所决定的相对重要性。这是一种简单而有效的设计,有助于更精确地将奖励信号传导至模型参数。

综上所述,DCPO 通过 DAC、SAS 和 OTM Loss 这三大支柱,构建了一个环环相扣、逻辑严密的优化框架,系统性地解决了现有 RLVR 方法在探索效率、训练稳定性和信号保真度上的多重痛点。

2. 实验验证:DCPO 的全面性能评估

理论的优雅最终需要通过坚实的实验数据来证明。DCPO 的作者们进行了一系列详尽的实验,将其与 GRPO、DAPO、GSPO 等基线方法在多个数学推理基准上进行了正面比较。

2.1 实验设置

  • 模型:实验覆盖了从 1.5B 到 14B 参数量的多个 Qwen2.5 系列模型,包括基础版和数学版,以验证方法的普适性。
  • 数据集:训练集由 DAPO-Math-17K 和 MATH 数据集的 level 3-5 部分合并而成,包含了约 2.5 万个数学问题。
  • 评测基准:涵盖了四个广泛使用的数学推理评测集:MATH500、AMC23、AIME24 和 AIME25。其中 AIME 是高难度的数学竞赛题,对模型的推理能力提出了极高的要求。
  • 评测指标

    • Avg@1:采用贪心解码(greedy decoding)生成的单个答案的准确率,代表了模型的最佳性能。
    • Avg@32:在温度为 1.0 的设置下采样 32 个答案,计算这 32 个答案的平均准确率。这个指标衡量了模型生成正确答案的多样性和鲁棒性,对于评估探索效果尤为重要。

2.2 主实验结果分析

跨基准测试的性能
跨基准测试的性能

实验结果(Table 1)清晰地展示了 DCPO 的优越性。

  • 全面的领先地位:在所有测试的模型规模上,DCPO 在四个基准的平均分(Average)上几乎都取得了最佳或并列最佳的成绩。例如,在 Qwen2.5-Math-7B 模型上,DCPO 的 Avg@1/32 得分为 57.1/45.2,显著超过了 GRPO (53.1/41.6)、DAPO (53.9/42.4) 和 GSPO (55.2/43.3)。

  • 在高难度任务上的鲁棒性(尤其体现在 Avg@32):最引人注目的结果出现在 AIME24 和 AIME25 这两个高难度竞赛级基准上。在这些需要深度、多步推理的任务中,模型的探索和生成多样化解题路径的能力至关重要。

    • 在 Qwen2.5-Math-7B 模型的 AIME24-Avg@32 指标上,DCPO 取得了 38.8 的高分,而 GRPO、DAPO、GSPO 分别为 32.1、31.6、34.9。
    • 在 Qwen2.5-14B 模型的 AIME25-Avg@32 指标上,DCPO 达到了 19.0,而 GRPO、DAPO、GSPO 分别仅为 10.5、15.3、9.9。

    这些在 Avg@32 上的巨大优势强有力地证明,DCPO 不仅提升了模型找到正确答案的概率,更重要的是,它显著增强了模型在高熵采样下生成多样化且正确的推理路径的能力。这直接印证了 DAC 和 SAS 在促进有效探索和稳定学习方面的成功。

2.3 效率与稳定

除了最终的准确率,论文还引入了两个过程指标——Token 裁剪率(TCR)和响应利用率(RUR),来揭示不同方法在训练动态上的差异。

Token 裁剪率(TCR)

TCR 定义为在反向传播中因超出裁剪边界而被丢弃的 token 占总 token 的比例。TCR 越低,意味着策略更新越平滑,样本的利用率越高。

不同模型和方法的 TCR
不同模型和方法的 TCR

如图 1 所示:

  • GRPO 和 DAPO 的 TCR 曲线表现出剧烈的波动,甚至在某些模型上呈现出随训练增长的趋势,这表明其训练过程存在不稳定性,且越来越多的 token 更新信号被浪费。
  • DCPO 的 TCR 曲线则表现出截然不同的行为:在所有模型上,其 TCR 始终维持在一个极低且稳定的水平,比 GRPO 和 DAPO 低了约一个数量级。这直观地证明了 DCPO 的动态自适应裁剪机制的有效性——它为大多数 token 提供了合理的更新空间,极少需要进行裁剪,从而实现了高效的样本利用。

响应利用率(RUR)

RUR 定义为生成的响应中,优势值非零的响应所占的百分比。这个指标直接衡量了样本的利用效率。

400 个训练步数内的平均 RUR
400 个训练步数内的平均 RUR
RUR 随训练进程的变化
RUR 随训练进程的变化

如表 2 和图 2 所示:

  • GRPO 的 RUR 表现不佳,平均只有约 44%,意味着超过一半的生成响应因为零梯度问题被直接丢弃。其 RUR 曲线还显示出随训练深入而急剧下降的趋势,问题愈发严重。
  • DCPO 得益于 SAS 机制,平均 RUR 高达 71.8% ,且在整个训练过程中保持稳定。这意味着绝大多数生成的样本都为模型更新做出了贡献。
  • DAPO vs DCPO 的训练效率:论文还指出,DAPO 由于其“丢弃-重生成”机制,需要生成 3 到 5 倍于 DCPO 的响应,才能完成相同数量的参数更新,这导致其训练所需的 GPU 时长至少翻倍。DCPO 在性能超越的同时,还具备显著的计算效率优势。

值得注意的是,DCPO 的 RUR 稳定在 70% 左右而非 100%,作者认为这反而是其优势所在。未被利用的 30% 响应主要来自两类情况:一是模型已经完全掌握的简单问题(持续输出正确答案),二是非常困难或数据标签有误的问题(持续输出错误答案)。在这两种情况下,强制进行梯度更新可能无益甚至有害。因此,SAS 机制在某种程度上起到了一个自动的、智能的课程学习(Curriculum Learning)过滤器的作用,让模型能聚焦于那些最值得学习的“跳一跳才能够得着”的样本。

3. 消融实验

为了验证 DCPO 各个组件(OTM, SAS, DAC)的独立贡献及其组合效果,作者们在 Qwen2.5-Math-7B 模型上进行了消融研究。

基于 Qwen2.5-Math-7B 的消融实验
基于 Qwen2.5-Math-7B 的消融实验

实验结果(图 3)非常清晰:

  1. 将 GRPO 的损失函数替换为 OTM,性能优于基线。
  2. 将 GRPO 的优势标准化替换为 SAS,性能得到显著提升,接近 DAPO 的水平,证明了 SAS 在稳定训练和提升样本利用率上的巨大作用。
  3. 将 GRPO 的固定裁剪替换为 DAC,性能同样超越了所有基线,包括 DAPO 和 GSPO,凸显了 DAC 在促进有效探索方面的强大能力。
  4. OTM + SAS + DAC 三者结合,即完整的 DCPO 框架,取得了最佳且最稳定的性能曲线,并在训练后期持续上升,与其他方法逐渐拉开差距。

消融实验有力地证明了 DCPO 的每个设计都不是孤立的,它们各自解决了特定的问题,并且协同作用,最终实现了 的效果。

代码库链接https://github.com/lime-RL/DCPO


往期文章: