让每一项优秀工作,被更多人看见:点击进入投稿通道

论文追踪 APP 推荐:DailyPapers


  • 论文标题:DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

  • 论文链接:https://arxiv.org/pdf/2605.25604

TL;DR

今天解读一篇来自阿里云团队的论文《DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning》,该论文探讨了在大语言模型(LLM)对齐阶段如何更稳定、更高效地进行多目标强化学习(Multi-reward Reinforcement Learning)。随着 Group Relative Policy Optimization (GRPO) 成为极具代表性的无价值模型、低内存消耗的对齐算法,如何在这一框架下同时优化多个经常相互冲突的奖励(如数学推理准确率与回复长度限制、工具调用正确性与格式规范)成了一个迫切需要解决的工程与理论难题。

传统的标量化(Scalarization)方案主要包括奖励组合(Reward Combination)和优势组合(Advantage Combination)。然而,作者指出这两者存在严重缺陷:奖励组合由于方差不一致,往往会在组合后产生极大的优势函数平方幅值,导致策略梯度波动巨大、训练失稳;而基于独立归一化的优势组合(如 GDPO)虽然稳定了梯度幅值,却使用静态超参数,且在归一化过程中将各个目标完全隔绝,无法捕获不同目标之间的协同或对抗关系。

为解决这些局限性,作者提出了 Dynamic Variance-adaptive Advantage Optimization (DVAO,动态方差自适应优势优化) 。该方法根据每个目标在当前采样组(Rollout Group)内的实测方差动态调整其组合权重。方差越大(通常意味着学习信号更强),该目标的权重就被动态调大;方差越小,权重则被抑制。

理论分析与多模型(Qwen3、Qwen2.5 涉及 3B 到 8B 不同尺度)实验证明,DVAO 不仅在数学上保证了优势函数幅值的有界性以维护训练稳定,还引入了隐式的自适应交叉正则(Self-adaptive Cross-objective Regularization)机制。在数学推理与工具调用基准测试中,DVAO 显著优于传统基线,并在精度与约束条件的折中上实现了帕累托前沿(Pareto Frontier)的主导。

1. 引言

1.1 大模型对齐中的多目标冲突

在将大语言模型(LLM)与人类意图对齐(Alignment)的过程中,强化学习(RL)已成为标准范式。尽管基于监督微调(SFT)的训练能够使模型学会基本的指令遵循,但大量研究表明,基于人类反馈的强化学习(RLHF)在泛化能力和深度推理方面表现更佳(Chu et al., 2025)。

然而,在实际部署中,我们很少只需要优化一个孤立的指标。以数学推理为例,我们不仅要求模型给出准确的答案,还希望控制其思维链(CoT)的长度,避免“无意义的冗长回复”(Sui et al., 2025);在工具调用(Tool-use)或代码生成中,我们不仅关注 API 调用的正确性,还要求其输出格式必须严格遵循 JSON 等特定的语法限制,以防止下游解析失败。这些经常相互冲突的目标使得大模型对齐天然地属于一个多目标强化学习(Multi-Reward Reinforcement Learning)问题。

1.2 现有两类标量化方法及其局限性

为了在强化学习框架下处理多奖励,研究者通常采用标量化方法将多个奖励函数合并为一个单一的标量,进而进行策略优化。目前最常用的两种实践方式为:

  1. 奖励组合(Reward Combination, RC):将多个原始奖励(Raw Rewards)直接进行加权求和,然后对求和后的总奖励进行统一的归一化,以此计算优势函数。这种方法虽然直观,但在实践中常常会产生具有极大平方幅值的优势函数,导致梯度更新幅度过大,引发训练不稳定。
  2. 优势组合(Advantage Combination, AC):先对每个目标对应的奖励在采样组内进行独立的归一化以获得各自的优势函数,然后对这些优势函数进行加权求和。尽管这种方法(如 GDPO, Liu et al., 2026)能够约束梯度的物理幅值,但由于它通常采用固定的静态超参数,并且在归一化阶段将不同的目标彼此完全隔离,因此它无法捕获不同目标之间在同一次 rollout 中的动态协同(Synergistic)或对抗(Antagonistic)关系。

为解决上述两类方法的局限性,作者提出了 DVAO。它能够依据当前 rollout 组内各目标的经验奖励方差,在训练过程中动态调整组合权重。这是一种全自动、免超参数调节的方法,在理论上不仅能限制优势函数的幅值以保证稳定性,还能通过引入交叉正则化机制促进多目标的协同学习。

2. 预备知识:从GRPO到多目标强化学习

2.1 经典单目标GRPO数学形式

在传统的强化学习对齐方法(如 PPO)中,需要训练一个单独的价值模型(Value Model / Critic)来提供基线(Baseline)以估计优势函数,这给大模型训练带来了极大的显存和计算开销。GRPO(Shao et al., 2024)通过在同一个提示词(Prompt)下采样一个包含 个回复的 rollout 组,利用组内的相对奖励来估计优势函数,从而省去了独立的价值模型。

形式上,给定一个输入查询 ,通过当前的策略模型 采样 个不同的输出回复 。对于每个回复 ,其获得的单目标奖励为 。该回复在组内的相对优势函数 计算如下:

其中, 分别代表该采样组内所有 个奖励的经验均值与经验标准差。

利用该优势函数,GRPO 的策略优化目标函数可表示为:

这里,重要性采样比率定义为:

则代表裁剪范围,用于防止策略更新幅度过大。

2.2 多目标强化学习的形式化定义

在多奖励强化学习设定下,假设我们有 个独立的目标。对于给定的输入输出对 ,其在第 个目标上对应的奖励被定义为 ,其中

奖励组合(RC)中,通常使用一组固定的凸组合系数 对各目标的原始奖励进行线性相加:

此后,对该总奖励 在组内进行归一化,所得的总优势函数为:

2.3 基于优势组合的GDPO框架

与奖励组合不同,诸如 GDPO 等优势组合(AC)方法选择首先独立计算每个目标的优势函数。对于第 个目标,其独立的优势函数为:

然后再利用固定的凸组合系数对其进行求和:

之后,使用这个组合优势函数 代替单目标优势函数进行梯度更新。

3. 现有标量化方法的理论局限剖析与证明

为了厘清为什么现有的 RC 和 AC 方法在多目标对齐中难以取得令人满意的效果,作者从数学上深入剖析了它们的梯度特性与数值行为。

3.1 奖励组合下的“幅值爆炸”问题

因为策略梯度的大小直接正比于优势函数的取值,过大或波动剧烈的优势函数会破坏梯度更新的平稳性。为此,作者提出了如下定理:

Proposition 1. 对于固定的查询 ,设 表示在该 rollout 采样组内第 个优势函数 与第 个优势函数 之间的样本相关系数(Sample Correlation)。奖励组合方法得到的优势函数与优势组合方法得到的优势函数满足:

当且仅当对于所有的 都有 时,等号成立。

详细数学证明过程:

根据群组归一化(Group Normalization)的定义,对于任意的第 个独立目标,其均值为 ,方差为

对于奖励组合方法,因为 是由 经过完整的组归一化而来的,其自身也满足标准的归一化定义,因而:

对于优势组合方法,我们将组合优势函数的均方值展开:


因为 ,且两目标在组内的经验样本相关系数定义为 ,上述公式可简化为:

已知权重满足 ,我们可以利用代数恒等式:

将该恒等式代入上述求和项中,可得:

由于权重系数 ,且样本相关系数满足 ,所以有 。这就证明了:

当且仅当所有的两两相关系数 时(即所有目标在组内变化完全同步,不存在冲突),上式取等号。证明完毕。

结论分析:

这一发现揭示了一个关键的事实:当多个优化目标之间存在冲突或不完全一致时(即某些目标的样本相关系数 ),奖励组合方法在均值意义上会产生比优势组合大得多的均方优势值。这是因为奖励相加之后再归一化,会强行消除不同奖励之间的冲突抵消效应,并把它们的组合方差拉回 。这相当于在冲突剧烈时,变相放大了优势函数的数值,从而引发巨大的策略梯度更新,导致训练极不稳定。

3.2 优势组合的“目标孤立”问题

优势组合方法(AC)虽然将组合优势函数的方差成功限制在 以下,但它依然存在固有的缺陷。如果我们忽略剪切范围,将策略梯度的数学期望展开:


其中 是仅对应于第 个目标独立优势函数 计算得到的梯度。

这意味着在优势组合下,各目标的梯度信息是完全解耦(Decoupled)的。在归一化的过程中,由于各目标的数据分布是独立处理的,它们相互之间完全失去了信息交流(例如模型在某一次 rollout 中是否同时做好了任务 A 和任务 B)。这种盲目解耦无法捕获多目标在单次决策中的协同关系,极易导致策略在多目标折中(Trade-off)时陷入次优的局部解。

4. DVAO:自适应权重与隐式交叉正则

为了在保持训练稳定性的同时,实现多目标之间的深度协同,作者提出了 DVAO(Dynamic Variance-adaptive Advantage Optimization)方法。

4.1 动态方差权重分配机制

DVAO 的核心思想是用数据驱动的动态方差权重来代替固定的静态组合系数。对于每一个 rollout 采样组,我们首先计算各个目标在该组内的经验标准差:

然后,利用这些经验标准差对初始的静态超参数权重 进行动态缩放,从而得到当前采样组特有的自适应权重

DVAO 的最终组合优势函数定义为自适应加权的单目标优势之和:

从直觉上看,该机制实现了“强信号放大,弱/噪声信号抑制”的作用:如果某一个目标在当前组内的采样回复中表现出极高的方差(即某些回复特别好,某些特别差),说明该目标在当前的训练阶段蕴含着极强的学习信号(Learning Signal),DVAO 会自适应地调大该目标的权重;相反,若某目标在当前组内的方差接近于 (意味着回复的表现都差不多,没有区分度,或者该目标极其容易达到满分),DVAO 则会压低其权重,避免无谓的噪声干扰。

4.2 理论保障一:有界性与防止梯度爆炸

DVAO 在数学上具有非常好的性质。以下命题保证了其优势函数的数值范围受到严格的保护,从而天然地避免了由于多奖励冲突导致的梯度爆炸问题:

Proposition 2. 对于任意固定的查询 和采样组 ,奖励组合(RC)方法产生的优势函数 在逐点(Pointwise)意义上始终大于或等于 DVAO 产生的优势函数 的绝对值:

当且仅当对于所有的 ,奖励之间满足完美正相关(即 )时,上式等号成立。

详细数学证明过程:

首先,我们需要在 与独立的优势函数 之间建立起桥梁关系。根据定义:

其对应的组内经验均值为 ,其中 是第 个目标奖励的经验均值。那么,

因为单目标的独立优势函数定义为 ,所以有 。将该关系代回上式,可以推导出以下核心恒等式:

接下来,我们对组合奖励的经验方差 进行展开:

根据柯西-施瓦茨不等式(Cauchy-Schwarz Inequality),任意两个变量的样本协方差始终小于或等于其经验标准差的乘积,即:

将此界限代入方差展开式中,我们得到:

由于标准差始终非负,对两边同时开平方根,得到一个极具价值的不等式关系:

现在,我们对前面的核心恒等式取绝对值,并除以

因为 ,我们可以替换分母,从而得到:

而根据 DVAO 优势函数的定义:

将其绝对值代入,便得到了最终的结论:

当且仅当两两协方差均取到最大值(即完美正相关)时,等号成立。证明完毕。

这一证明展示了 DVAO 的稳定性。在多目标对齐中,如果奖励之间存在冲突,传统的 RC 方法可能会导致优势函数出现“数值暴涨”,而 DVAO 优势函数的绝对值在每个数据点上都严格小于或等于 RC 方法所得的值。这从根本上约束了策略梯度的波动范围,避免了极端的参数更新。

4.3 理论保障二:隐式自适应交叉正则机制

不仅如此,作者通过对优势函数关于原始奖励求偏导数(敏感度分析),进一步揭示了 DVAO 内部蕴含的协同机制:

Proposition 3. 对于固定的查询 和采样组 ,优势组合(AC)方法与 DVAO 方法关于第 个原始奖励 的偏导数分别由下式给出:


详细数学推导过程:

为了计算多目标优势函数关于具体某一个原始奖励 的梯度敏感度,我们首先需要推导单个归一化优势函数 的导数。
回忆定义:

其中样本均值为 ,样本方差为 。我们首先求它们关于单一观测值 的导数:

为了计算标准差的导数,我们先对经验方差 求导。由于 ,展开链式法则可得:

因为 ,所以有:

利用商法则(Quotient Rule),我们可以求得 的导数:


在优势组合(AC)方法中,由于 ,且各目标归一化是独立进行的(即 无关,对于 ),利用链式法则可直接得出:

至此,Proposition 3 的前半部分得证。

接下来,我们对 DVAO 的情况进行推导。我们将 DVAO 优势函数改写为如下关于分母 的形式:

因为对 求偏导时,其他目标对应的项可以看作常数,所以我们有:

同时,分母 的导数为:

下面将上述导数代入商法则展开式:


对公式进行约简(两边同时约去一个 ):

由于根据自适应权重的定义,,这可以改写为 。将其代入上式,最终得到:

公式推导圆满完成。

核心物理内涵剖析:

我们可以将这一数学形式的推导视为论文的核心贡献之一。仔细对比 AC 方法与 DVAO 的偏导数公式:

  • 优势组合 (AC) 中,第 个目标对应的梯度更新缩放系数由项 决定。这意味着该目标的反馈信号敏感度仅取决于该目标自身在此次 rollout 中的表现,完全无视了其它目标(如长度是否超标、格式是否错误)的成败。
  • DVAO 中,这个敏感度由交叉乘积项 决定。这就将当前目标单独的表现 与所有目标的全局综合表现 牢牢地绑定在一起

这一绑定产生了一个极为神奇且符合直觉的“自适应交叉正则”效果:

  1. 反向拉动(协同补齐):若某一个 rollout 在第 个目标上表现极其优秀(),但其全局多目标的总体表现却十分糟糕(例如因为严重超时或者格式错误导致其总和优势 ),此时交叉项 。带入偏导数公式后,项 就会被自适应地放大(比 还要大)。这意味着,模型不仅会由于此样例做得好而受到惩罚,而且由于全局指标较差,模型对于这个错误样例的梯度敏感度会成倍放大,从而迫使模型优先去修正导致全局失败的短板(如过长回复、格式语法错误)。
  2. 正向抑噪(防止过度压榨):如果某个 rollout 在全局和局部都做得极好(两者皆大于 ),则交叉项为正,偏导数项被自适应缩小。这可以防止模型为了在某个容易优化的任务(如缩短长度)上过度压榨性能,而损害了更为艰难的核心任务(如逻辑推理的准确度)。

5. 实验

为了验证 DVAO 相比于传统奖励组合(RC)、优势组合(AC)以及 GDPO 的实际对齐效果,作者在数学推理和工具调用这两个极具挑战性的多奖励场景下展开了大规模评估。

5.1 实验设置

  • 数学推理任务:评估基准包括 AIME-2024、AIME-2025、MATH500、OlympiadBench 和 AMC23。由于数学推理常常面临 CoT 路径过长导致推理显存爆炸的问题,此场景的多目标定义为:

    1. 准确率 reward ()
    2. 回复长度限制 reward (,判断是否超出设定的 字符阈值)
  • 工具调用任务:基于 Berkeley Function Call Leaderboard (BFCL-v4) 进行评估。其多目标定义为:

    1. 正确性 reward (,即参数调用及逻辑无误)
    2. 格式规范 reward (,即返回结构与 JSON 完备性)
  • 训练模型:数学推理使用 Qwen3-4B-Base 与 Qwen3-8B-Base;工具调用使用 Qwen2.5-3B-Instruct 与 Qwen2.5-7B-Instruct。
  • 开发框架:基于开源的 verl 强化学习框架,采样组大小 ,总计训练 步。

5.2 数学推理任务主实验结果

以下是数学推理任务上的主实验性能对比数据:

从表 1 的数据中我们可以发现:

  1. 单目标 GRPO 面临严重的长度爆炸:在使用单纯的 奖励进行训练时,虽然模型准确度提升明显(如 Qwen3-4B 从 25.78% 升至 39.91%),但其长度依从性(Len.)从基准的 90.41% 断崖式下跌至 77.84%,甚至在 Qwen3-8B 上从 94.28% 跌落至 63.47%。这表明模型通过学会“说废话”和“无限套娃推理”来极化准确率。
  2. 传统标量化方案(RC/AC)的性能割裂:虽然加入长度惩罚后,RC 和 AC 成功把长度依从性拉回至 96% 以上,但是代价极其惨重——其推理准确率大幅度回落。在 4B 模型上,RC 和 AC 准确率仅为 38.99% 和 38.75%;在 8B 模型上,RC 的准确率跌至 46.26%(相比单奖励 GRPO 的 52.57% 暴跌了 6.31个百分点)。这表明现有的静态权重无法在“变短”和“变聪明”之间找到合拍的妥协点。
  3. GDPO 的灾难性崩溃:GDPO(基于独立归一化的静态优势组合)在数学推理场景中发生了严重的目标塌陷。尽管它把长度依从性维持在了 97.81% (4B) 和 99.99% (8B),但其平均准确率崩溃到了 13.41% (4B) 和 14.69% (8B)。这直接印证了“目标孤立”的危害——当长度奖励这个简单目标(很容易达到 1.0)由于静态优势分配机制而在归一化中占据主导时,模型会彻底倒向简单目标,从而彻底丧失了困难目标(逻辑推理)的优化信号。
  4. DVAO 实现性能双赢:DVAO 在两个尺度上不仅将长度依从性推向了接近完美的水平(99.91% 和 99.92%),同时还反超了单目标 GRPO 的准确率(在 4B 上达到 42.19%,在 8B 上达到 47.49%)。这表明自适应方差权重不仅能够惩罚长回复,更重要的是,其交叉正则机制能够在有限的长度内提取出更加高效、精炼的优质推理路径。

5.3 工具调用任务主实验结果

在工具调用这种更依赖指令与格式控制的 Agent 场景中,对比同样十分清晰:

分析表 2 可以得出相似的洞察:

  • 单奖励 GRPO 格式依从性近乎归零:在 7B 模型上,虽然准确率从 47.83% 升至 52.26%,但由于格式被破坏,格式依从性(Format.)彻底跌为 0.00%。
  • DVAO 保持全线主导:在 Qwen2.5-7B-Instruct 上,DVAO 的平均准确率高达 63.00%,同时保持了 79.21% 的高规格格式化依从率,相较于 RC(58.38% / 76.42%)与 AC(44.25% / 68.04%)取得了显著的多维度领先。值得一提的是,AC 方案在 7B 模型上表现极不稳定,准确率甚至跌穿了微调基准值(退步至 44.25%),这进一步证实了由于忽略目标间关联导致的梯度冲突对模型训练有着极大的负面干扰。

6. 深入分析:训练动力学与帕累托前沿

为了进一步窥探 DVAO 卓越平衡能力的底层机理,作者细致监测了整个强化学习训练生命周期的指标变化。

6.1 训练动力学:均值上升与方差崩溃

作者在 Qwen3-4B-Base 和 Qwen3-8B-Base 模型上可视化了准确率奖励(Accuracy Reward)、长度奖励(Length Reward)以及平均回复字数随着训练步数(Step)的演进轨迹。

观察图 1 和图 2 呈现的三组关键动力学特征:

  1. 准确率奖励通道(左侧图):DVAO 的平均准确率曲线(实线)自训练初期起便稳稳压制在其他所有基线方案之上,随着参数尺度扩大(8B 模型),优势更加凸显。更本质的区别在于其方差曲线(下方虚线):DVAO 的准确率标准差在整个训练中降幅最深。低方差结合高均值,直观印证了 DVAO 能够源源不断地提供数值温和、指向性明确的良性策略梯度(符合 Proposition 2 理论界)。
  2. 长度奖励通道(中间图):在此通道中发生了戏剧性的方差崩溃(Variance Collapse)。DVAO 的均值迅速爬升并牢牢稳定在接近 1.0 的满分红线上。而在标准差维度,DVAO 在 4B 上迅速跌落至接近 0.1,在 8B 上更是在 150 步内几近归零。作为对比,传统的 RC 方案在长度奖励的均值和标准差上均表现出剧烈的震荡与不收敛。这种快速的方差收敛直接体现了 Proposition 3 中的交叉正则化效果:一旦模型存在过长的坏样本,它就会遭到偏导数中巨额权重因子的严厉惩罚,迫使长度这一指标迅速对齐并闭合。
  3. 回复长度表现(右侧图):在初始阶段,所有模型的平均回复长度都在 800 字符左右。随着 CoT 强化训练展开,RC、AC、DVAO 的回复长度均呈现出螺旋上升趋势。然而,DVAO 的增长斜率最大、最终停留的字数平台也最高(接近 1600 字符),这有力证明了 DVAO 并非是以强力截断 CoT(即强行偷懒不思考)来获得高长度得分,而是通过高效、良性的探索过程,极大地提升了每一步生成 Token 的含金量,确保回复不超长的前提下实现推理效果的最大化。

6.2 帕累托前沿:全面主导

为了全面评估多目标优化方法的鲁棒性,以及证明 DVAO 的优越性并非源于一次精细调参的幸运,作者对超参数权重进行了大范围扫参。作者在区间 中连续扫射 (表示准确率的预设权重系数,相对应的长度/格式权重 ),并在坐标轴上绘制出“准确率 vs. 依从度”的帕累托散点图:

如图 3 所示:

  • 在数学推理任务(Qwen3-4B)中,DVAO 的红色帕累托曲线处于明显的“右上角”绝对支配(Dominance)地位。无论如何改变权重,DVAO 总能在保障近乎 100% 长度控制的同时,取得比其它方案高出 2% 至 4% 的准确率。而传统的 AC 方案(橙色)极度失稳,在大部分权重下均发生了崩溃。
  • 在工具调用任务(Qwen2.5-3B)中,这一趋势同样显著。GDPO(绿色)虽然能够控制格式,但其准确率始终被限死在 53% 这一天花板上,而 DVAO 的散点图最高点成功突破 56.66% 准确率。这充分表明了动态方差自适应缩放能够真正实现精细的帕累托前沿导航(Trade-off Navigation),避免了静态标量化方案非此即彼的极端表现。

7. 讨论:方法横向对比与前沿延伸

7.1 与经典多目标对齐算法的横向对比

为了给各位大模型研究员提供更宏观、更具工程借鉴意义的决策视角,下面对目前多目标对齐领域主流的标量化逻辑进行横向对比梳理:

  1. 直接标量化(RC)

    • 核心逻辑
    • 本质缺陷:忽视了在 rollout 组内不同目标的经验方差不对等。当目标 A 的原始数据纯粹是高方差噪声而目标 B 包含高价值学习信号时,一律求和会导致优势函数充斥大量干扰,且在冲突严重时优势平方幅值过大,容易破坏优化稳定性。
  2. 独立解耦归一化(AC/GDPO)

    • 核心逻辑
    • 本质缺陷:为了追求训练稳定而完全割裂了各目标的动态联系。敏感度恒定,在面对极端样例(如牺牲一万个字只换来多对一个百分点的数学题)时无法产生协同制衡,容易在多目标冲突中丧失核心指标(逻辑准确率)的优化灵敏度。
  3. 动态方差自适应(DVAO)

    • 核心逻辑, 且
    • 核心优势:通过在组合时动态乘以各目标的组内方差,巧妙地将归一化的组合转化成了可变权重的自适应加权。在理论上,它以 RC 作为有界性的上确界保护了训练安全(Proposition 2);在机制上,它借由偏导数中的交叉项实现了天然的隐式联合惩罚(Proposition 3),达到了“在稳定中协同,在数据中自适应”的境界。

7.2 局限性与未来探索方向

尽管 DVAO 在理论和实验中均展现了较好的效果,但作为前沿研究,它依然有一些边界问题值得大模型对齐研究员们在未来进行深入探索:

  1. 组采样大小 的下限依赖
    DVAO 自适应权重的准确性高度依赖于对当前 rollout 组内经验方差的精确估计。当组大小 时,方差估计极其稳定。但在硬件显存极为受限、被迫使用极小 group size(例如 )的大模型训练中,单组内的经验标准差可能存在较大的抽样误差。作者指出,未来可以通过引入历史方差动量(Historical Momentum)或跨批次滑动平均(Cross-batch Moving Average)来对超小采样组下的方差估计进行稳定和平滑。
  2. 高维极度冲突目标的扩展性
    本文目前的实证部分集中在双目标对齐(Accuracy + Length/Format)上。虽然 Proposition 2 和 Proposition 3 在数学上天然支持 个 Conflicting 目标,但当面对“有用性(Helpfulness)、无害性(Harmlessness)、表达风格(Style)、逻辑深度(Reasoning Depth)”等极其复杂且交织冲突的多目标空间时,自适应方差优化的寻优能力和收敛路径仍需要更宏观的实证工作来探索。
  3. 辅助奖励的质量瓶颈
    DVAO 本质上是一个“信号放大器”。如果某一个辅助目标设计得很糟糕,充斥着大批无序的高方差随机噪声(例如随机判分或者极度不稳定的规则正则匹配器),DVAO 可能会误将这些噪声方差识别为“强学习信号”而自适应地调大该目标的权重。因此,DVAO 的优秀表现仍然有赖于各子目标定义本身的合理性与鲁棒性

8. 总结

本文深入剖析了在主流的大模型强化学习对齐算法(GRPO)中处理多个经常冲突的优化目标时,现有奖励组合和优势组合方案所面临的数学弊病。阿里云团队提出的 Dynamic Variance-adaptive Advantage Optimization (DVAO) 通过全数据驱动、免手动调参的方式,利用 rollout 组内的经验标准差动态平衡不同任务。

通过严格的数学推导,论文不仅证明了 DVAO 的组合优势绝对值存在逐点有界性,极大地稳定了策略梯度更新,还揭示了其偏导数中蕴含的“自适应交叉正则机制”——这使得模型不再能够贪婪地通过牺牲核心复杂目标去套利简单指标,而是促使多项指标发生协同提升。在 Qwen 系列模型上的大规模数学和 Tool-use 实验中,DVAO 全面突破了帕累托前沿,同时维护了极为稳健的训练轨迹,为未来的多任务、全维度对齐研究提供了一条颇具启发性的技术路线。

更多细节请阅读原论文。