论文标题：GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
论文链接：https://arxiv.org/pdf/2601.05242

TL;DR

今天解读一篇来自 NVIDIA 团队的一篇论文《GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization》，论文指出当前业界常用的 Group Relative Policy Optimization (GRPO) 在处理多奖励（Multi-reward）场景时存在理论缺陷：直接对加和后的总奖励进行组内归一化（Group-wise Normalization），会导致不同奖励组合在归一化后坍缩为相同的优势值（Advantage），从而丢失训练信号的粒度，导致收敛次优甚至训练失败。

为此，论文提出了 GDPO（Group reward-Decoupled Normalization Policy Optimization）。该方法的核心在于“先归一化，后聚合”，即对每个独立的奖励分量分别进行组内归一化，然后再求和，最后辅以 Batch-wise 的归一化以稳定数值范围。实验表明，GDPO 在工具调用、数学推理和代码生成等任务上，无论是在正确率还是约束满足度上，均一致优于 GRPO。

1. 引言

在当前的后训练（Post-training）阶段，强化学习（RL）已成为对齐人类偏好的标准范式。早期的 RLHF 主要关注单一维度的偏好（如有用性或准确性），但随着模型部署场景的复杂化，我们需要模型同时满足多个异构目标，例如：

准确性（Correctness）： 答案是否正确。
格式（Format）： 是否遵循特定的 JSON 或 XML 结构。
长度（Length）： 回答是否简洁，避免啰嗦。
安全性（Safety）： 是否拒绝有害指令。

在多奖励 RL（Multi-reward RL）的实践中，最直观的方法是将各个目标的奖励加权求和，得到总奖励，然后直接套用现有的 RL 算法。

GRPO（Group Relative Policy Optimization）因其去除了 Value Model 的高效性，成为了近期（尤其是 DeepSeek-R1 等工作之后）的主流选择。然而，NVIDIA 的这项研究重新审视了 GRPO 在多奖励设定下的适用性，揭示了一个被长期忽视的“奖励信号坍缩”（Reward Signal Collapse）问题，并提出了相应的解决方案 GDPO。

2. GRPO 在多奖励场景下的“信号坍缩”

2.1 GRPO 的标准计算流程

回顾 GRPO 的核心机制：对于同一个问题，策略模型采样一组输出，其中是组大小（Group size）。假设有个优化目标，第个输出的总奖励为各分量之和：

GRPO 通过组内归一化来计算优势函数（Advantage），公式如下：

这种方法在单目标优化中表现稳定，但在多目标优化中，先求和再归一化的操作会造成严重的信息丢失。

2.2 信号坍缩的数学示例

为了直观展示这一问题，论文构建了一个极简的理论模型。

假设：

场景： 针对每个问题生成 2 个回答（）。
奖励： 有两个二元奖励。
总分： 单个回答的总奖励取值范围为。

我们列举所有可能的奖励组合（不考虑顺序），可以发现尽管原始的奖励组合有多种情况，但在 GRPO 处理后，优势值出现了坍缩。

如上图所示，考虑以下两种截然不同的情况：

情况 A：
- Rollout 1 得分：（总分 1）
- Rollout 2 得分：（总分 0）
- 组内奖励集合为。
- GRPO 归一化后的优势为：。
情况 B：
- Rollout 1 得分：（总分 2）
- Rollout 2 得分：（总分 0）
- 组内奖励集合为。
- GRPO 归一化后的优势为：。

问题所在：
在情况 B 中，Rollout 1 同时满足了两个目标（总分 2），理应比情况 A 中只满足一个目标（总分 1）获得更大的正向优势信号。然而，经过 GRPO 的组内标准化（减均值除方差）后，两者的优势值完全相同。

这意味着，模型无法区分“表现完美”和“表现平庸”，只要它们相对于组内最差样本的“相对差距”在统计学上分布一致。这种分辨率的降低直接导致了训练信号的模糊，使得模型难以快速收敛到同时满足所有最优目标的状态。

2.3 为什么去除标准差归一化无法解决问题？

近期有一些工作（如 DeepSeek-v3/R1 的部分变体）提出在 GRPO 中去除标准差归一化项，仅做减均值处理（Center-only）：

论文指出，虽然这在一定程度上缓解了上述特例中的数值相同问题（情况 A 变为，情况 B 变为），但在 rollout 数量增加或奖励维度增加的更一般场景下，优势值的“组数”（Distinct Advantage Groups）并没有显著增加。实验证明，单纯去除标准差项并不能带来下游任务性能的实质性提升，甚至在某些格式约束任务上会导致无法收敛（参见后文实验分析）。

3. GDPO 方法详解

为了解决上述问题，论文提出了 GDPO。其核心思想是将归一化操作解耦（Decouple）到每个独立的奖励分量上。

3.1 算法步骤

GDPO 的计算流程包含三个关键步骤：

第一步：组内解耦归一化（Group-wise Decoupled Normalization）

对于第个奖励目标，单独计算其在组内的归一化优势：

这一步确保了每个奖励维度的相对分布信息被完整保留，不会因为与其他奖励相加而被掩盖。

第二步：优势聚合（Aggregation）

将各分量的归一化优势求和：

第三步：Batch-wise 优势归一化（Batch-wise Advantage Normalization）

这是 GDPO 引入的一个重要工程细节。由于是多个标准正态分布变量的和，随着奖励数量的增加，其数值范围会扩大（方差叠加）。为了保证训练的稳定性，并在引入新奖励时不破坏原有的超参数敏感度，GDPO 在整个 Batch 层面（包含所有问题和所有采样）对聚合后的优势再次进行归一化：

3.2 GDPO 的优势解析

信息保真度： 回到 2.2 节的例子。
- 对于情况 A（奖励 1, 0），GDPO 计算出的优势（归一化后）依然对应较小的数值。
- 对于情况 B（奖励 2, 0），由于每个分量分别贡献了正向优势，聚合后的数值会显著大于情况 A。
- 结论： GDPO 能够区分“满足所有目标”和“满足部分目标”的样本，提供更精细的梯度信号。
数值稳定性： Batch-wise 归一化确保了最终输入给 Policy Gradient 的优势值分布稳定在附近，使得学习率等超参数对奖励数量的变化不敏感。

如图 3 所示，随着采样数量（Rollout）或奖励目标数量的增加，GDPO 产生的“不同优势值组”的数量显著多于 GRPO。这意味着 GDPO 能够利用更丰富的信息来更新策略。

4. 如何防止“Reward Hacking”？

在实际应用中，不同目标的重要性往往不同。例如，我们可能认为“答案正确”比“格式完美”更重要。论文对此进行了深入的探讨，指出了传统加权方法的局限性，并推荐了条件奖励（Conditioned Reward）策略。

4.1 传统加权法的局限

最常见的做法是加权求和：

然而，研究发现，当不同任务的难度差异巨大时，单纯调整权重往往失效。
例如，在数学推理任务中，“长度惩罚”（让回复变短）通常比“做对难题”容易得多。如果模型发现缩短长度能轻松获得，而做对题目很难获得，即使设得很高，模型也可能倾向于坍缩到生成极短但错误的回答，以稳拿长度分。

4.2 解决方案：条件奖励（Conditioned Reward）

为了解决难度不平衡导致的 Reward Hacking 问题，论文建议使用条件奖励机制。即：简单任务的奖励，只有在困难任务达成时才发放。

以数学题为例，定义长度奖励为：

效果分析：

强制优先级： 模型被强制必须先攻克核心任务（正确率），才能享受到辅助任务（长度）的奖励红利。
避免局部最优： 防止模型陷入“生成空字符串”这种满足长度约束但毫无意义的局部最优解。
实验支持： 在后文实验中，使用条件奖励的 GDPO 在 AIME 等高难度数学基准上，不仅减少了长度违规，还实现了比单纯加权更高的准确率。

5. 实验结果与分析

论文在三个具有代表性的任务上对比了 GDPO 和 GRPO：工具调用（Tool Calling）、数学推理（Math Reasoning）和代码推理（Coding Reasoning）。

5.1 任务一：工具调用 (Tool Calling)

目标：
1. 格式（Format）： 严格遵循 XML 标签 <think>, <tool_call> 等。
2. 准确性（Correctness）： 调用的函数名、参数名、参数值必须与 Ground Truth 匹配。
模型： Qwen2.5-Instruct (1.5B/3B)。
结果：
- GRPO 的问题： 在格式奖励上收敛缓慢，且最终上限较低。
- GDPO 的表现： 格式和准确性双重提升。特别是在 Format 准确率上，GDPO 达到了 ~82%，而 GRPO 仅为 ~81%（3B 模型）。
- 消融实验： 仅去除标准差归一化的 GRPO (GRPO w/o std) 在此任务中彻底失败，格式奖励为 0，说明简单的修改不足以处理严格的格式约束。

5.2 任务二：数学推理 (Math Reasoning)

目标：
1. 准确性（Accuracy）： 答案正确。
2. 长度约束（Length Constraint）： 鼓励回复长度小于 4000 token。
模型： DeepSeek-R1-1.5B/7B, Qwen3-4B-Instruct。
现象：
- GRPO 的训练坍缩： GRPO 在训练约 400 步后，正确率奖励开始下降，同时长度开始失控（变长）。这表明模型在权衡两个冲突目标时失败。
- GDPO 的鲁棒性： 即使在长度奖励极易获取的情况下，GDPO 依然能保持正确率的稳步上升，同时有效地控制最大响应长度。
基准测试（MATH, AIME, AMC）：
- 在 DeepSeek-R1-7B 上，GDPO 在 AIME 上的准确率比 GRPO 高出 2.9% ，同时长度违规率从 2.1% 降至 0.2% 。
- 这证明了 GDPO 实现了更好的“准确率-效率”权衡。

5.3 任务三：代码推理 (Coding Reasoning)

目标（3 个奖励）：
1. 通过率（Pass Rate）： 通过测试用例。
2. 长度（Length）： 简明代码。
3. 无 Bug（Bug Ratio）： 无运行时/编译错误。
模型： DeepSeek-R1-7B。
结果：
- 在三目标联合优化中，GDPO 在保持与 GRPO 相似的 Pass Rate 的同时，显著降低了 Bug 率和长度违规率。
- 例如在 Taco 数据集上，GDPO 将 Bug 率从 30.0% 降至 28.0% ，同时长度违规从 14.7% 降至 10.6% 。

6. 消融实验

6.1 Batch-wise 归一化的必要性

论文在附录 A 中展示了去除 Batch-wise 归一化后的训练曲线。结果显示，如果不进行这一步，训练过程偶尔会出现不收敛的情况（Loss 震荡或奖励无法提升）。这是因为不同奖励分量求和后，数值波动范围可能过大，甚至导致梯度爆炸或消失。Batch-wise 归一化将输入分布拉回标准范围，增强了优化器的稳定性。

6.2 奖励权重的敏感度分析

作者在数学任务上测试了不同的长度奖励权重。

GRPO 的表现： 权重调整效果混乱。降低长度权重并不一定能显著增加长度违规率（意味着模型并没有听从权重的指挥），控制力较弱。
GDPO 的表现： 表现出更强的可控性。随着降低，模型逐渐放宽长度限制以换取准确率。
配合条件奖励： 当结合条件奖励（Conditioned Reward）时，GDPO 展现出最佳的帕累托前沿（Pareto Frontier），在大幅压缩长度的同时几乎不损失（甚至提升）准确率。

更多细节请阅读原文。

往期文章：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

NVIDIA 提出 GDPO：面向多奖励强化学习的解耦归一化策略

TL;DR

1. 引言

2. GRPO 在多奖励场景下的“信号坍缩”

2.1 GRPO 的标准计算流程

2.2 信号坍缩的数学示例

2.3 为什么去除标准差归一化无法解决问题？

3. GDPO 方法详解

3.1 算法步骤

3.2 GDPO 的优势解析

4. 如何防止“Reward Hacking”？

4.1 传统加权法的局限

4.2 解决方案：条件奖励（Conditioned Reward）

5. 实验结果与分析

5.1 任务一：工具调用 (Tool Calling)

5.2 任务二：数学推理 (Math Reasoning)

5.3 任务三：代码推理 (Coding Reasoning)

6. 消融实验

6.1 Batch-wise 归一化的必要性

6.2 奖励权重的敏感度分析

专题展示

NVIDIA 提出 GDPO：面向多奖励强化学习的解耦归一化策略

TL;DR

1. 引言

2. GRPO 在多奖励场景下的“信号坍缩”

2.1 GRPO 的标准计算流程

2.2 信号坍缩的数学示例

2.3 为什么去除标准差归一化无法解决问题？

3. GDPO 方法详解

3.1 算法步骤

3.2 GDPO 的优势解析

4. 如何防止“Reward Hacking”？

4.1 传统加权法的局限

4.2 解决方案：条件奖励（Conditioned Reward）

5. 实验结果与分析

5.1 任务一：工具调用 (Tool Calling)

5.2 任务二：数学推理 (Math Reasoning)

5.3 任务三：代码推理 (Coding Reasoning)

6. 消融实验

6.1 Batch-wise 归一化的必要性

6.2 奖励权重的敏感度分析

猜你喜欢

专题展示