论文标题：The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
论文链接：https://arxiv.org/pdf/2506.01347v2

TL;DR

今天分享一篇 NeurIPS 2025 的论文《The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning》。该研究针对具有可验证奖励的强化学习（RLVR）在提升大语言模型（LLM）推理能力时的机制进行了剖析。

核心结论如下：

分解视角：作者将 RLVR 的学习信号分解为正样本强化（PSR，即奖励正确答案）和负样本强化（NSR，即惩罚错误答案）。
NSR 的有效性：实验发现，仅使用负样本进行训练（NSR）就能在 Pass@ 指标上取得与 PPO 和 GRPO 相当甚至更好的效果，尤其是在值较大时。这意味着模型在不被显式告知“什么是对的”的情况下，仅通过“什么是错的”就能显著提升推理能力。
PSR 的局限性：仅使用正样本训练（PSR）虽然能快速提升 Pass@1（贪婪解码准确率），但会导致模型输出分布坍缩，多样性下降，从而损害 inference-time scaling（推理时扩展）的能力。
梯度机制：通过 Token 级别的梯度分析揭示，PSR 倾向于强化已生成的正确路径并抑制所有其他路径（包括潜在的正确路径），导致过拟合；而 NSR 通过抑制错误路径，利用模型自身的先验知识将概率质量重新分配给其他合理的候选者，从而保留了探索能力。
Weighted-REINFORCE：基于上述发现，论文提出了一种加权 REINFORCE 算法，降低正样本的权重，在 MATH、AIME 2025 和 AMC23 等基准测试中取得了一致的性能提升。

1. 引言

近期，大语言模型在数学、代码和科学推理等复杂任务上展示了显著的能力。这一进步背后的关键技术之一是基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）。与传统的基于人类反馈的强化学习（RLHF）不同，RLVR 应用于结果客观可验证的领域（如数学题答案、代码通过测试用例）。DeepSeek-R1、Kimi k1.5 等近期工作的成功，进一步证实了 RLVR 诱发长思维链（Long CoT）和自我修正行为的潜力。

RLVR 通常采用二元奖励机制：由于结果只有对错之分，模型获得的奖励通常是或。这种机制简单且有效，避免了复杂的奖励模型训练，也减少了对人类标注的依赖。尽管 RLVR 在提升样本效率和推理时扩展（Inference-time Scaling）方面表现出色，但社区对于其内在运作机制的理解尚不充分。

核心问题在于：在只有二元信号的情况下，模型究竟是如何通过正向和负向反馈来更新其行为的？

为了回答这个问题，作者在本文中提出了一种解构分析方法。他们将 RLVR 的目标函数拆解为两个独立的学习范式：

正样本强化（Positive Sample Reinforcement, PSR）：仅从获得正奖励的样本中学习。
负样本强化（Negative Sample Reinforcement, NSR）：仅从获得负奖励的样本中学习。

这项研究通过对比实验和梯度分析，揭示了一个反直觉的现象：仅依赖负向信号（NSR）在提升模型推理的综合能力（特别是多样性生成能力）上，可能比正向信号更为稳健。

2. RLVR 目标函数及其分解

在深入探讨机制之前，我们需要先建立数学框架。

2.1 RLVR 的标准定义

给定参数为的语言模型，提示词集合，以及可验证的奖励函数。RLVR 的目标是学习一个策略，使得期望奖励最大化。在实际操作中，通常最小化以下损失函数：

其中，对于数学推理任务，奖励。表示答案正确，表示答案错误。在 PPO 或 GRPO 等算法中，通常会对奖励进行归一化处理（例如减去基线），但在本文的分析中，为了隔离正负信号的物理意义，作者直接使用了原始的二元奖励。

2.2 正负样本强化的分解

为了理解模型在面对“成功”和“失败”时的不同学习动力学，作者将上述目标函数根据奖励的正负性进行了分解：

基于此，定义两个子目标：

PSR 目标（Positive Sample Reinforcement）：

这本质上类似于监督微调（SFT），即最大化正确路径的似然概率。
NSR 目标（Negative Sample Reinforcement）：

注意，最小化等价于最小化错误路径的似然概率。

这两种范式都是 On-policy 的，即样本是从当前模型中采样生成的。这种分解使得我们可以单独训练 PSR 或 NSR，观察它们对模型行为的独立影响。

3. 实验设置与评估体系

为了验证不同强化方式的效果，作者进行了大规模的实验。

3.1 模型与数据

模型：选择了三个不同规模和架构的模型：
- Qwen2.5-Math-7B
- Qwen3-4B (使用了其 non-thinking 模式进行训练)
- Llama-3.1-8B-Instruct
训练集：MATH 数据集，包含 7,500 个问题。
框架：使用 verl 框架进行训练。Prompt batch size 设为 1024，每个 prompt 采样 8 个 rollout。
基线算法：对比了 PPO 和 GRPO。注意，PSR 和 NSR 的实现方式是选择性地仅使用正确或错误的样本更新模型，因此其每个 batch 的有效样本数少于 PPO/GRPO。

3.2 评估指标：Pass@ 的重要性

传统的评估往往关注贪婪解码的准确率（即 Pass@1）。然而，最近的研究（如 DeepSeek-R1 和 OpenAI o1 的相关分析）表明，推理模型的上限往往取决于其在多次尝试中找到正确答案的能力，即 Inference-time Scaling。

因此，本文采用了全谱系的 Pass@ 作为核心评估指标。

Pass@1：反映了模型的 Exploitation（利用） 能力，即模型有多大信心直接输出正确答案。
Pass@ (Large ) ：反映了模型的 Exploration（探索） 能力和推理边界。如果模型能生成多样化的正确路径，Pass@ 会随着的增加而显著上升。

Pass@ 的无偏估计公式为：

其中是总采样次数，是正确样本数。实验中，取 256（Qwen2.5/Llama）或 64（Qwen3）。

4. 实验结果

实验结果展示了不同训练目标对模型推理能力产生的显著差异。

4.1 NSR 展现出惊人的 Pass@ 扩展性

如上图所示，这是本文最核心的实验发现：

PSR 的短视：PSR（红线）在 Pass@1 上表现尚可，但在之后，其性能增长明显放缓，甚至低于 Base Model（蓝线）。这表明仅奖励正样本损害了模型的多样性。
NSR 的强劲：NSR（粉线）虽然从未见过被强化的“正确答案”，但其性能曲线在整个值谱系上都表现出色。在时，NSR 甚至超过了 PPO 和 GRPO。
Pass@1 的对比：令人惊讶的是，NSR 的 Pass@1 并没有因为缺乏正向引导而崩塌，而是达到了与 Base Model 相当甚至略高的水平。

4.2 Qwen3-4B 与潜在能力的激发

对于 Qwen3-4B，作者在一个特殊设置下进行了测试：使用 non-thinking 模式（不触发 <think> 标签）进行训练和推理。这是一个模型潜在能力很强但未被激活的场景。

结果显示：

PSR 无法激活潜能：PSR 在此场景下表现糟糕，未能有效利用模型潜在的推理能力。
NSR 与 GRPO 有效：NSR 表现出了与 GRPO 相似的强劲性能，成功激活了模型的推理能力。这暗示 NSR 有助于模型跳出当前的局部最优，探索更复杂的推理路径。

4.3 Llama-3.1 的退化现象

在 Llama-3.1 上，所有 RL 方法相对于 Base Model 都有所退化（特别是在高处）。这与近期一些关于 RL 在某些 Base Model 上可能导致 Inference scaling 性能下降的研究一致（如 RLOO 等论文的观察）。但在所有 RL 方法中，NSR 导致的退化是最小的，再次证明了其在保持分布多样性方面的优势。

4.4 训练动态分析：熵与过拟合

为了解释上述现象，作者监控了训练过程中的几个关键指标。

熵（Entropy）的变化：
- PSR（红线）：在训练初期，测试集上的熵迅速下降。这意味着模型对其输出变得非常自信，分布急剧尖峰化。
- NSR（粉线）：熵在整个训练过程中保持在较高水平，几乎与 Base Model 持平。这说明 NSR 保留了模型的探索能力。
- PPO/GRPO：介于两者之间。
正确样本比例（Correct Sample Ratio）：
- PSR 的正确样本比例上升最快，这解释了其 Pass@1 的提升，但也预示了过拟合。
- NSR 的正确样本比例上升较慢，且始终低于 PSR，说明它没有过度拟合特定的正确路径。

结论是：PSR 通过牺牲多样性换取了准确率（Exploitation），而 NSR 在提升准确率的同时保留了多样性（Exploration）。

5. 为什么 NSR 有效？

这一部分是论文的精华，通过 Token 级别的梯度分析，揭示了 NSR 和 PSR 本质的运作机制。

5.1 梯度推导基础

考虑单步 Token 的生成。对于一个训练实例，损失函数对 Logits 的梯度决定了参数更新的方向。
令为当前时间步模型预测 token 的概率。为实际采样的 token。

损失函数的梯度通用形式推导如下（详见论文附录 A）：

其中。

5.2 PSR 的梯度动力学 ()

当时，梯度变为：

采样 Token ()：。梯度为负，增加 的 Logit。
未采样 Token ()：。梯度为正，减小 其他所有 token 的 Logit。

解读：
PSR 的机制非常直接且霸道。它不仅提升被采样到的正确 token 的概率，还会无差别地抑制所有其他 token。

后果：即使词表中还有其他合理的 token（例如同义词，或者另一条正确推理路径的起始词），只要它们没被采样到，就会受到抑制。随着训练进行，分布会迅速向采样到的路径坍缩，导致“赢家通吃”。这就是为什么 PSR 会导致熵急剧下降，损害 Pass@。

5.3 NSR 的梯度动力学 ()

当时，梯度变为：

采样 Token ()：。梯度为正，减小 错误 token 的 Logit。
未采样 Token ()：。梯度为负，增加 其他所有 token 的 Logit。

解读：
这是 NSR 展现魔力的地方。

惩罚错误：它明确地降低了导致错误的 token 的概率。
基于先验的重分配（Prior-guided Redistribution）：注意未采样 token 的更新量与成正比。这意味着，模型在抑制错误 token 后，释放出来的概率质量并不是均匀分配给其他 token，而是按照模型当前的信念分布（Prior Beliefs） 进行分配。
- 原本概率高的合理 token（High-confidence tokens）会获得更多的概率提升。
- 原本概率低的无关 token 获得的提升微乎其微。

NSR 的三大特性：

保护高置信度先验：对于错误路径中出现的语法性高频词（如 "the", "is"），即使，由于其，梯度中的项会使得惩罚力度很小。这防止了模型遗忘基本的语言能力。
软性重排序（Soft Reranking）：NSR 执行的是一种软性的概率重排序，它仅仅剔除了被验证为错误的选项，而保留了其他候选者的相对顺序。
隐式正则化：一旦模型不再生成该错误答案（），NSR 的梯度更新就会停止。这提供了一种自然的停止机制，防止过拟合。

5.4 与其他方法的对比

与熵正则化（Entropy Regularization）对比：
单纯增加熵正则项（）虽然能提升多样性，但其梯度倾向于压制高概率 token 并提升低概率 token，这违背了模型的先验知识（即强行让模型说胡话）。而 NSR 是在保留先验结构的前提下提升相对多样性。
与 Unlikelihood Training 对比：
Unlikelihood Training 最小化。其梯度在很大时非常剧烈，容易破坏模型已有的知识。而 NSR 的梯度包含因子，具有阻尼效应，更加温和。

6. Weighted-REINFORCE

基于上述分析，我们面临一个权衡：

PSR：提升 Pass@1，但损害多样性。
NSR：保持多样性，提升 Pass@，但对 Pass@1 的直接引导较弱。

作者提出了一个简单而有效的变体：Weighted-REINFORCE (W-REINFORCE) 。其核心思想是降低正样本的权重，或者说相对提升负样本的权重。

目标函数如下：

其中是调节系数。

当时，退化为标准的 REINFORCE。
当时，退化为 NSR。

6.1 实验效果

作者发现，将设为较小的值（如 0.1）效果最佳。

实验数据表明，W-REINFORCE () 结合了 PSR 和 NSR 的优点：

Pass@1：在 MATH 上达到了 76.6，匹配了 PPO 的最佳性能，超过了单纯的 NSR。
Pass@256：达到了 96.7，接近 NSR 的 96.9，远超 PPO (96.3) 和 GRPO (95.5)。
在 AIME 2025 和 AMC23 上，W-REINFORCE 展现了更强的一致性优势，特别是在 AIME 上，Pass@256 达到了 56.7，显著优于其他所有方法。

6.2 的消融实验

实验显示的选择具有一定的鲁棒性，只要，模型就能保持良好的多样性。一旦接近 1，Pass@256 性能就会显著下降，验证了正样本信号过强是导致多样性丧失的根本原因。

7. 讨论与相关工作

7.1 与推理时扩展（Inference-time Scaling）的关系

这篇论文的发现与近期关于 Test-time Compute 的研究紧密相关。文献指出，SFT 或强 RL 往往会损害模型的 Pass@ 扩展能力。本文从梯度的角度给出了具体的解释：正向强化导致的分布尖峰化（Sharpening）限制了模型生成多样化候选答案的能力，而多样性正是 Majority Voting 或 Verifier 机制生效的基础。

7.2 与 PPO/GRPO 的对比

PPO 和 GRPO 引入了 Critic 模型和 KL 散度约束等机制来稳定训练。然而，本文的分析表明，即便有 KL 约束，正向奖励信号本身带来的“抑制未采样路径”的梯度特性，依然会导致熵的降低。相比之下，调整正负样本的权重（W-REINFORCE）可能是一种更本质、更简洁的解决方法。

7.3 局限性

虽然 NSR 和 W-REINFORCE 表现出色，但也存在局限性：

长期训练的不稳定性：如同其他 RL 算法，长时间训练后性能可能会震荡或下降。
稀疏奖励问题：本文主要处理二元稀疏奖励。对于更密集的奖励（如过程奖励 Process Reward），正负信号的定义可能变得模糊，NSR 的应用方式需要进一步探索。

更多细节请阅读原文：arXiv:2506.01347v2 [cs.CL] 25 Oct 2025 版本。代码已开源于：https://github.com/TianHongZXY/RLVR-Decomposed

往期文章：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

陈丹琦团队新作：负样本强化在 LLM 推理中的有效性机制

TL;DR

1. 引言

2. RLVR 目标函数及其分解

2.1 RLVR 的标准定义

2.2 正负样本强化的分解

3. 实验设置与评估体系

3.1 模型与数据

3.2 评估指标：Pass@ 的重要性

4. 实验结果

4.1 NSR 展现出惊人的 Pass@ 扩展性

4.2 Qwen3-4B 与潜在能力的激发

4.3 Llama-3.1 的退化现象

4.4 训练动态分析：熵与过拟合

5. 为什么 NSR 有效？

5.1 梯度推导基础

5.2 PSR 的梯度动力学 ()

5.3 NSR 的梯度动力学 ()

5.4 与其他方法的对比

6. Weighted-REINFORCE

6.1 实验效果

6.2 的消融实验

7. 讨论与相关工作

7.1 与推理时扩展（Inference-time Scaling）的关系

7.2 与 PPO/GRPO 的对比

7.3 局限性

专题展示

陈丹琦团队新作：负样本强化在 LLM 推理中的有效性机制

TL;DR

1. 引言

2. RLVR 目标函数及其分解

2.1 RLVR 的标准定义

2.2 正负样本强化的分解

3. 实验设置与评估体系

3.1 模型与数据

3.2 评估指标：Pass@ 的重要性

4. 实验结果

4.1 NSR 展现出惊人的 Pass@ 扩展性

4.2 Qwen3-4B 与潜在能力的激发

4.3 Llama-3.1 的退化现象

4.4 训练动态分析：熵与过拟合

5. 为什么 NSR 有效？

5.1 梯度推导基础

5.2 PSR 的梯度动力学 ()

5.3 NSR 的梯度动力学 ()

5.4 与其他方法的对比

6. Weighted-REINFORCE

6.1 实验效果

6.2 的消融实验

7. 讨论与相关工作

7.1 与推理时扩展（Inference-time Scaling）的关系

7.2 与 PPO/GRPO 的对比

7.3 局限性

猜你喜欢

专题展示