近年来,基于强化学习(Reinforcement Learning, RL)的大语言模型(LLMs)后训练(post-training)技术取得了显著的进展,尤其是在代码生成领域。像 DeepSeek-R1 这样的模型通过 GRPO 等先进的 RL 算法,在各大代码生成基准上取得了令人瞩目的成就。这些技术的核心思想很简单:让模型生成代码,然后根据代码的运行结果(例如,是否通过所有测试用例)给予奖励或惩罚,从而调整模型的策略。
然而,这种完全依赖于最终“结果”的奖励范式存在一个潜在的缺陷:它忽略了模型得出解决方案的“过程”——也就是中间的推理链条。一个正确的答案可能源于一个有缺陷的、偶然的、甚至完全错误的推理过程。过度依赖结果奖励,可能会导致模型“学会”投机取巧,而不是真正掌握解决问题的内在逻辑。这种现象被称为“奖励破解”(Reward Hacking),即模型找到了优化奖励信号的捷径,却没有在真正期望的能力上有所提升。
例如,模型可能生成了一个在训练测试用例上表现完美,但在面对稍有变化的未见场景时就漏洞百出的代码。这是因为它没有学到通用的、鲁棒的解决问题的逻辑,而只是“过拟合”了奖励信号。
论文《Posterior-GRPO: Rewarding Reasoning Processes in Code Generation》敏锐地洞察到了这一问题。作者们认为,一个高质量、逻辑严谨的推理过程是通向高质量、鲁棒代码的关键。他们的初步研究也证实了推理过程质量与最终解决方案正确性之间存在显著的相关性(卡方检验,)。因此,他们提出了一个核心问题:我们能否通过优化策略模型的推理过程,来更有效地提升其代码生成能力?

-
论文标题:Posterior-GRPO: Rewarding Reasoning Processes in Code Generation -
论文链接:https://www.arxiv.org/pdf/2508.05170
为了回答这个问题,该论文提出了一套统一的框架,旨在将推理过程的质量有效地整合到强化学习训练中。这项工作主要包含三大核心贡献:
-
开发了一个全新的基准 LCB-RB:专门用于评估奖励模型对推理过程优劣的辨别能力,填补了现有基准的空白。 -
提出了一种创新的 OD-based 奖励模型训练方法:通过系统性地“优化”和“退化”初始推理路径,生成高质量的偏好对数据,从而训练出能精确评估推理质量的奖励模型。 -
设计了一种新颖的 RL 算法 P-GRPO:该算法将过程奖励与结果奖励相绑定,仅在结果正确时才奖励其推理过程,从而有效缓解奖励破解问题,使模型的内部推理与最终的代码正确性对齐。
通过这套框架,一个 7B 参数的模型在多个代码生成任务上取得了卓越的性能,不仅大幅超越了仅依赖结果奖励的基线模型,其性能甚至可以与 GPT-4-Turbo 相媲美。
集成推理奖励:机遇背后的三大挑战
虽然直接监督和奖励模型的推理过程是一个很有前景的方向,但在实践中却面临着三大严峻的挑战。
挑战一:缺乏合适的评估基准
要训练一个能够评估推理过程的奖励模型,首先需要一个能够衡量其能力的基准。然而,现有的奖励模型评估基准,如 RewardBench
,主要关注的是最终的解决方案(例如,哪段代码是正确的,哪个数学答案是对的),而不是生成这些方案的推理过程。这种评估目标上的错位,使得我们无法准确判断一个奖励模型是否真正理解了“好的推理”和“坏的推理”之间的区别。我们需要一个专门为推理过程设计的、包含成对优劣比较的基准。
挑战二:缺乏可靠的推理评估奖励模型
目前最先进的(SOTA)奖励模型,例如 Skywork-Reward-V2
,大多是基于结果的优劣进行训练的。虽然代码质量和推理质量存在相关性,但自然语言描述的推理过程和结构化的代码之间存在着巨大的语义鸿沟。直接将这些为评估代码或自然语言答案而设计的奖励模型应用于评估代码生成的推理过程,效果往往不佳,无法捕捉到逻辑严密性、事实准确性等细微差别。因此,我们需要一个专门为评估代码推理过程而设计的奖励模型。
挑战三:缺乏能有效利用推理信号的 RL 算法
即使我们有了一个可靠的推理奖励模型,如何有效地将其信号整合到 RL 训练中也是一个难题。先前的研究(如 Guo et al. 2025
)已经表明,相比于基于测试用例的、信号稀疏但明确的奖励,由神经网络(即奖励模型)生成的密集奖励信号更容易被策略模型利用和破解。策略模型可能会学会生成那些能从奖励模型处获得高分、但实际上逻辑混乱且无法导出正确代码的“伪推理”,从而导致训练过程偏离正轨。因此,我们需要一种能够鲁棒地利用推理奖励,同时避免reward hacking 的 RL 算法。
为了系统性地解决这三大挑战,作者们构建了一个环环相扣的解决方案。
一个统一的推理感知 RL 框架
该论文提出的框架包含三个紧密相连的部分:首先构建一个用于评估的基准(LCB-RB),然后基于此目标设计一种训练奖励模型的方法(OD-based),最后提出一种能有效利用该奖励模型的强化学习算法(P-GRPO)。
第一部分:LCB-RB - 一个全新的推理评估基准
为了解决“挑战一”,作者们首先构建了 LCB-RB (LiveCodeBench-Reasoning Benchmark)。这是一个由偏好对(preference pairs)组成的基准,每个偏好对都包含一个“更优的”推理过程和一个“更差的”推理过程。
LCB-RB 的构建流程如下:
-
数据生成:研究者们选择了来自 LiveCodeBench
的代码问题。对于每个问题,他们使用一个强大的 LLM(Qwen2.5-Coder-32B-Instruct
)并开启高温采样(temperature=1.0
),以生成 50 个带有详细推理过程的多样化解决方案。 -
初步筛选:通过运行相应的测试用例,他们将解决方案分为“正确的”和“错误的”两类。然后,他们从这两类中提取推理过程,构建初步的偏好对(即正确方案的推理过程 vs. 错误方案的推理过程)。 -
高质量过滤:仅仅基于代码是否正确来判断推理过程的优劣是不够的。高质量的推理过程也可能因为微小的实现错误(如忘记 import
某个库)而导致代码失败。同样,模型也可能因为自我认知偏差而无法发现自己推理中的逻辑漏洞。为了解决这个问题,作者们引入了一个更强大的外部验证器——GPT-4o
。他们要求GPT-4o
完成两个关键任务:-
识别推理过程中的逻辑缺陷:判断推理链条本身是否存在不合逻辑、事实错误或步骤缺失等问题。 -
验证推理与实现的一致性:检查最终的代码实现是否忠实地遵循了前述的推理思路。
-
-
构建偏好对与平衡数据: -
只有当推理过程没有逻辑缺陷且代码正确时,该推理过程才被标记为“选择的”(chosen)。 -
当推理过程存在可识别的缺陷且代码错误时,该推理过程被标记为“拒绝的”(rejected)。 -
在策划 LCB-RB 时出现了一个自然的类别不平衡问题:功能正确的代码几乎总是基于一个合理的推理过程,而功能错误的代码并不一定意味着其推理过程就是完全错误的。这导致“选择的”样本远多于“拒绝的”样本。为了解决这个问题,作者采用了下采样策略:对于每个“拒绝的”样本,从同一个问题实例中随机抽取一个“选择的”样本,共同构成一个偏好对。 -
最终,他们从 880 个代码问题中筛选出了 187 个高质量的偏好对,构成了 LCB-RB 基准。
-
这个基准的独特之处在于,它评估的不是最终答案,而是推理路径的质量,这使其成为衡量奖励模型推理辨别能力的理想工具。
第二部分:OD-based 方法 - 训练高保真度奖励模型
为了解决“挑战二”,即如何训练一个可靠的推理奖励模型,作者们提出了一种新颖的 Optimized-Degraded based (OD-based) 方法。
该方法的灵感来源于 Evol-Instruct
范式,其核心思想是通过进化(增强复杂性)指令来提升生成模型的能力。作者们将这一思想巧妙地应用于判别模型(奖励模型)的训练上。他们假设,通过向奖励模型展示从“差”到“好”再到“更好”的细粒度对比,可以显著提升其辨别能力。

OD-based 方法的流程如上图所示:
-
生成初始推理:对于一个给定的问题 x
,首先使用一个强大的 LLM(Qwen2.5-Coder-32B-Instruct
)生成一个初始的推理过程y
。 -
生成优化与退化版本:接着,利用精心设计的提示(prompt),引导 LLM 对初始推理 y
进行操作,生成两个新的版本:-
优化版本():修复原始推理中的潜在错误,填补逻辑空白,使其更加严谨、高效和全面。 -
退化版本():故意在原始推理中引入一个或多个缺陷,使其质量下降。
-
-
定义推理质量维度:为了系统地进行优化和退化,作者定义了三个关键的推理质量维度: -
事实准确性(Factual Accuracy):推理过程是否包含事实性错误。 -
逻辑严谨性(Logical Rigor):是否存在冗余或误导性的逻辑步骤,或者是否存在导致推理不完整的逻辑缺失。 -
逻辑连贯性(Logical Coherence):逻辑流程在步骤之间的衔接是否清晰流畅。
在生成 和 时,模型会被指示从这些维度中选择一个或多个进行操作。
-
-
构建偏好对并训练:这个过程产生了三种类型的偏好对: -
(x, y^+, y^-)
:优化版本 vs. 退化版本(对比最强烈) -
(x, y, y^-)
:原始版本 vs. 退化版本 -
(x, y^+, y)
:优化版本 vs. 原始版本
通过在这三种偏好对上训练一个布拉德利-特里(Bradley-Terry)模型,最终得到一个奖励模型 。这个模型能够为任意给定的问题-推理对(x, y)
输出一个标量分数,该分数与推理质量成正比。
-
这种方法通过创造鲜明的、多维度的对比信号,让奖励模型能够学习到对推理质量更细致入微的理解。
第三部分:P-GRPO - 一种缓解奖励破解的新型 RL 算法
有了可靠的奖励模型,如何解决“挑战三”,即在 RL 训练中有效利用它并避免奖励破解?作者为此设计了 Posterior-GRPO (P-GRPO) 算法。
该算法建立在 GRPO (Group Relative Policy Optimization) 之上。GRPO 的核心思想是,对一个问题采样生成一组(group)答案,然后根据每个答案的奖励计算其相对于该组答案平均奖励的优势,并以此来更新策略。P-GRPO 在此基础上,巧妙地引入了“思考奖励”(thinking reward),并设计了一个“后验”(Posterior)机制来控制其应用。

P-GRPO 的奖励由三个部分构成:
-
格式奖励():这是一个二元奖励。它检查模型的输出是否遵循预定义的格式,即推理过程被包裹在
<think>...</think>
标签内,代码答案被包裹在<answer>...</answer>
标签内。格式正确则 ,否则为 。这确保了后续可以稳定地提取推理和代码。 -
基于规则的奖励():这是来自测试用例验证的“结果奖励”(outcome reward)。它也是一个二元奖励,只有当提取出的代码通过所有测试用例时,,否则为 。
-
思考奖励():这是由前述 OD-based 方法训练出的奖励模型生成的“过程奖励”。它是一个范围在 0 到 1 之间的连续值,用于评估提取出的推理过程的质量。
P-GRPO 的核心创新在于其“后验奖励分配策略”。总奖励 R
的计算方式如下:
这里的关键是 这一项。它意味着:
-
当结果正确时():总奖励中包含思考奖励 。模型会因为生成了通向正确答案的高质量推理而获得更高的奖励。 -
当结果错误时(): 项为零,思考奖励被完全忽略。模型不会因为生成了“看起来很美”但最终导致错误结果的推理而受到任何激励。
这种门控设计(gated design)确保了模型只会被激励去探索那些能够导向功能正确解决方案的优质推理路径,从而将模型的内部优化过程与最终的解决方案正确性紧密对齐,有效缓解了奖励破解。
此外,P-GRPO 还解决了标准 GRPO 的一个局限。在标准 GRPO 中,如果一个批次(batch)中的所有样本都碰巧是正确的(),那么它们的奖励都相同,导致优势值(advantage)为零,梯度消失,模型在这一步学不到任何东西。但在 P-GRPO 中,即使所有解决方案都正确,它们的推理过程质量()也可能各不相同,从而产生差异化的总奖励,创造出有意义的、非零的优势值。这使得模型能够接收到更清晰的梯度信号,不仅要找到正确的解,还要积极地去寻找源于更高质量推理的那个解。
实验设置与结果分析
为了验证其框架的有效性,作者进行了一系列详尽的实验,旨在回答三个核心研究问题(Research Questions, RQs)。
实验通用设置:
-
策略模型:在代码任务上,使用 Qwen2.5-Coder-7B-Instruct
作为基础模型。在数学任务上,使用Qwen2.5-Math-7B
。 -
训练数据:使用 DeepCoder-Preview-Dataset
(一个包含 24k 编程问题的语料库)进行 RL 训练。 -
评估基准: -
代码任务: HumanEval(+)
、MBPP(+)
、BigCodeBench
和LiveCodeBench v5
。 -
数学任务: MATH500
、Minerva Math
和AIME 2024
。 -
奖励模型任务: LCB-RB
和RewardBench
的代码与数学子集。
-
-
评估指标:代码任务使用 Pass@1
,奖励模型任务和数学任务使用准确率(Accuracy)。
RQ1: P-GRPO 在代码生成任务中的有效性如何?
这个问题旨在评估 P-GRPO 作为一个整体方法在提升代码生成能力方面的效果。

结果分析:
-
显著的性能提升:从表 1 可以看出,与基础的 Qwen2.5-Coder-Instruct
模型(平均分 50.4)相比,经过 P-GRPO 训练后的模型(平均分 57.4)取得了 13.9% 的相对性能提升。这是一个非常显著的进步。 -
优于仅结果奖励的基线:与仅使用结果奖励( GRPO (Code)
,平均分 54.9)的 RL 基线相比,P-GRPO 的性能高出 4.5% 。这一增益在LiveCodeBench
这种更具挑战性的基准上尤为明显(18.1% 的相对提升),证明了奖励推理过程的价值。 -
媲美顶级闭源模型:P-GRPO 训练的 7B 模型取得了与 GPT-4-Turbo
(平均分 58.4)相当的性能,这充分展示了该方法的强大潜力。 -
RL 优于 SFT:实验还发现,简单的在 RL 数据上进行监督微调(SFT)会导致性能严重下降( +SFT
,平均分 39.1),这表明 SFT 可能会破坏模型预训练阶段学到的能力,而 RL 通过探索式策略优化,能更有效地进行能力提升。
定性分析:
为了探究 P-GRPO 性能提升的内在机制,作者们检查了模型的具体输出。

在上图中,任务是判断一个数是否为完全平方数。
-
不带思考奖励的模型 (GRPO (Code)) :生成的推理过程很简单,直接计算平方根再平方进行比较。这个逻辑没有考虑到负数这个边缘情况(edge case),导致其生成的代码在 MBPP+
的某些测试用例上失败。其思考奖励得分只有 0.02。 -
带思考奖励的模型 (P-GRPO (Code+RM)) :生成的推理过程更加全面和严谨,在第一步就明确指出了“负数不可能是完全平方数”,并将其作为检查点。这个逻辑更完善的推理过程引导模型生成了更鲁棒的代码,成功通过了所有测试用D例。其思考奖励得分高达 0.21。
这个例子直观地展示了 P-GRPO 的优势:通过激励模型生成更全面、逻辑更严谨的推理,从而自然地引导其产出更准确、更鲁棒的代码。
RQ2: OD-based 奖励模型在辨别推理质量方面的有效性如何?
这个问题旨在评估 OD-based 方法训练出的奖励模型的性能,并检验其是否优于现有模型。

结果分析:
-
在 LCB-RB 上达到 SOTA:在为评估推理过程而专门设计的 LCB-RB 基准上,使用 OD-based 方法训练的 7B 奖励模型取得了 58.28% 的准确率,不仅超越了所有其他基线,甚至比 GPT-4-Turbo
(58.28%)的表现还要好。这证明了 OD-based 方法在训练推理辨别能力方面的有效性。 -
强大的泛化能力:在 RewardBench
的代码和数学子集上,OD-based 模型同样表现出色,在平均分上超越了所有基线,达到了 82.22% 的准确率。这表明模型学到的推理辨别能力可以很好地泛化到其他领域和基准。 -
优于分数监督方法:与另一种可能的基线方法( Score-Based
,即让 LLM 直接对推理过程打分,然后用分数来监督奖励模型)相比,OD-based 方法的性能有大幅提升(例如,7B 模型平均分从 66.53% 提升到 82.22%)。这可能是因为 LLM 对细粒度的数值分数不敏感,而基于“优化”和“退化”的成对比较信号更清晰、更易于学习。
这些结果有力地证明,OD-based 方法是训练高质量推理奖励模型的有效途径。
RQ3: P-GRPO 训练范式能否泛化到数学任务?
为了检验该框架的通用性,作者将其扩展到了同样高度依赖高质量推理的数学领域。

结果分析:
-
在数学任务上同样有效:从表 3 中可以看到,基础的 Qwen2.5-Math
模型在 P-GRPO 训练后,性能得到了显著提升(平均分从 24.5 提升到 51.5)。 -
超越仅结果奖励的基线:与不带思考奖励的 RL 基线( +GRPO (Math)
,平均分 48.0)相比,P-GRPO 带来了 7.4% 的相对性能提升。 -
性能轨迹持续领先:如下图所示,在 AIME 2024 基准的整个训练过程中,P-GRPO 模型的性能始终稳定地优于基线模型,验证了其方法的普适性和有效性。

这些实验结果表明,P-GRPO 框架并非仅限于代码生成,其核心思想——奖励导向成功的优质推理——是一种具有广泛适用性的通用方法。
深入讨论与消融研究
为了更深入地理解框架中各个组件的作用,作者还进行了一些有趣的讨论和消融实验。
不同偏好对组合的影响
在 OD-based 方法中,作者生成了三种偏好对 (y+, y^-)
, (y, y^-)
, (y+, y)
。它们各自的贡献有多大?

实验结果(上图)显示:
-
使用全部三种偏好对进行训练时( OD-Based (3 Pairs)
),模型性能最好。这说明一个全面、多层次的对比信号(从差到中、从中到好、从差到好)能最有效地提升奖励模型的辨别力。 -
在单一类型的偏好对中,仅使用优化 vs. 退化 (Opt-Deg)
对进行训练的模型,性能远超其他两种单类型组合。这表明,最大化推理质量的对比度(最优 vs. 最差)可以提供最清晰的学习信号。
与其他奖励模型的比较
如果将 P-GRPO 中的 OD-based 奖励模型换成一个标准的、在最终结果上训练的 SOTA 奖励模型(如 Skywork-Reward-Llama-3.1-8B
)会怎么样?

实验结果(上图中的 Skywork
曲线)显示,使用 Skywork-Reward
的 P-GRPO 性能不如使用 OD-based 奖励模型的版本。这揭示了一个深刻的洞见:仅仅基于最终结果训练的奖励模型,可能会无意中强化那些通往正确答案但过程并非最优的次优推理模式。因为只要代码正确,它就会给予奖励,而不会去深究其推理过程是否严谨。相比之下,OD-based 模型明确地对推理过程的质量进行建模,从而引导策略模型走向更稳健的学习路径。
Reward Hacking的影响
P-GRPO 的核心是“后验”奖励机制。如果放弃这个机制,会发生什么?作者设计了一个“软奖励”(soft reward)实验来验证这一点。他们将奖励公式修改为 ,其中 是测试用例的通过率(一个 0 到 1 之间的连续值),而不是二元的 。
实验结果(上图中的 Soft RM
曲线)显示,这种软奖励机制的性能一直低于标准的 P-GRPO。这清晰地表明,从错误代码中派生出的奖励信号(即 时的 )是有噪声且不可靠的。策略模型会过度利用这些噪声信号,试图在推理上获得高分而忽略了最终代码的正确性,从而导致性能下降。这个实验有力地证明了 P-GRPO 的后验门控机制对于抑制奖励破解至关重要。
点评
OD-based 方法:该方法非常巧妙。通过系统性地对一个初始推理进行“优化 (Optimize)”和“退化 (Degrade)”,创造出具有强烈对比信号的偏好对。这相比于简单地使用“正确解的推理 vs. 错误解的推理”作为训练数据,能让奖励模型学到对推理质量更细粒度、更本质的理解。
其核心的“后验奖励 (Posterior Reward)”机制是一种简单而优雅的设计。它通过一个乘法门控,确保了只有在最终结果正确的前提下,模型才会因其优秀的推理过程而受到激励。
论文将推理质量分解为三个维度,并通过 LLM prompt 来执行优化和退化。这个过程本身引入了一定的主观性。也就是说,“什么才是更优的推理”在某种程度上是由“教师”LLM 的偏好决定的。如果“教师”LLM 本身存在某些推理上的偏见或盲点,这些缺陷可能会被传递给奖励模型,进而影响策略模型的训练。
往期文章:
-微软新作GFPO:治疗DeepSeek R1的“话痨”,冗长响应减少80%