LLM Post-Training 统一视角：清华 & 微信AI 提出统一 Policy Gradient 估计器

又一篇UFT（SFT+RL）的一篇论文（之前分享过两篇：MIT：UFT 统一监督微调（SFT）和强化微调（RFT）、RL+SFT 优势首融合，动态引导模型高效训练，大家有兴趣可以阅读一下），来自清华大学、上海人工智能实验室以及微信AI：《Towards a Unified View of Large Language Model Post-Training》，提出了一个统一的理论框架，揭示了SFT和RL这两种方法本质上是同一优化过程的不同体现。论文不仅从理论上推导出了一个“统一策略梯度估计器”（Unified Policy Gradient Estimator, UPGE），还将多种后训练算法纳入其中，更基于此理论提出了一个名为“混合后训练”（Hybrid Post-Training, HPT）的实用算法，在多个数学推理基准测试中取得了优异表现。

论文标题：Towards a Unified View of Large Language Model Post-Training
论文链接：https://arxiv.org/pdf/2509.04419

论文一句话总结：根据模型的实时性能反馈，在SFT（利用）和RL（探索）之间动态切换。

引言

大型语言模型在经过海量文本数据的预训练后，具备了通用的语言理解和生成能力。然而，为了让模型在特定任务上表现更佳，或者使其行为更符合人类的期望与价值观（即“对齐”），后训练阶段必不可少。

目前，后训练主要依赖两条技术路线：

监督微调 (SFT) ：SFT 使用高质量的、由人类标注或筛选的“指令-回答”数据对模型进行微调。这种方法的优点是直接高效，能够快速将专家知识“蒸馏”给模型，使其迅速掌握特定任务的模式。然而，SFT的弊端也同样明显。它严重依赖示范数据的质量和覆盖范围，容易导致模型在分布外（Out-of-Distribution）的数据上泛化能力不足，甚至出现“过拟合”现象，仅仅是记住了训练数据，而丧失了探索和推理的灵活性。
强化学习 (RL) ：尤其是基于人类反馈的强化学习（RLHF），允许模型通过试错来学习。模型生成回答后，一个奖励模型（通常由人类偏好数据训练而来）会对其进行评分，模型则根据这个奖励信号来调整自身策略，以期获得更高的奖励。RL的优势在于能够鼓励模型探索，发现超越示范数据的新知识或更优的解决方案，从而提升泛化能力和推理能力。但RL的训练过程通常不稳定、资源消耗大，并且对奖励模型的设计非常敏感。对于能力较弱的初始模型或复杂的任务，RL的探索过程可能效率低下，难以发现有效的奖励信号。

由于两者各有优劣，业界主流的做法是采用“SFT-then-RL”的序贯流程：先通过SFT赋予模型基础能力，再通过RL进行精细打磨。虽然这种方法在许多开源模型中取得了成功，但它不仅资源密集，而且需要精细的调优。近年来，研究者们开始探索将SFT和RL更紧密地结合起来，例如通过一个混合的损失函数同时进行优化。然而，这些工作大多将SFT和RL视为两个独立的目标，缺乏一个统一的理论来解释它们为何能够以及如何能够被有效结合。

统一策略梯度估计器 (UPGE)

论文的第一个核心贡献是提出了统一策略梯度估计器 (Unified Policy Gradient Estimator, UPGE) ，从数学上证明了多种后训练算法（包括SFT和各种RL变体）的梯度计算，都可以被统一到一个通用的表达式中。

从共同目标出发

所有后训练算法的根本目标可以被抽象为一个共同的优化问题：最大化模型策略在给定问题下生成轨迹的期望奖励，同时通过一个KL散度项来约束模型策略不要偏离一个行为策略（demonstration policy）太远。这个行为策略可以理解为提供高质量示范数据的专家策略。

共同的目标函数可以写作：

其中，是轨迹的奖励分数，是一个权衡奖励最大化和数据遵循的超参数。

通过对这个共同目标函数求导，并进行一系列数学变换（如应用得分函数恒等式和重要性采样），论文作者们最终得到了一个统一的策略梯度形式。

UPGE的通用形式

这个统一的策略梯度估计器（UPGE）可以表示为以下简洁而深刻的形式：

这个公式看起来很紧凑，但其背后包含了后训练算法设计的精髓。它由四个可互换的核心组件构成，不同的算法可以看作是为这四个组件选择了不同的具体实现。

1. 似然梯度 (Likelihood Gradient)
这是策略梯度方法的基础部分，它将从动作（即生成的token）中获得的梯度信息反向传播到模型的参数。这部分在所有算法中保持一致，是优化的最终执行者。

2. 优势估计 (Advantage Estimate)
在传统RL中，优势函数衡量的是在某个状态下，采取某个动作相对于平均水平的好坏。在LLM的后训练中，这个概念通常被简化为对整个生成序列（轨迹）质量的评估。它决定了梯度更新的方向和大小。

对于SFT，可以认为所有示范数据都是“好的”，因此其优势值可以被设为一个恒定的正数，例如1。这意味着模型的目标就是最大化生成这些示范数据的似然。
对于RL算法（如PPO, GRPO），优势值则是根据奖励模型或环境反馈动态计算的。例如，GRPO通过组内归一化（减去均值，除以标准差）来计算优势，这有助于稳定训练并进行相对信用的分配。

3. 参考策略分母 (Reference Policy Denominator)
这是一个token级别的重加权系数，通常以逆概率的形式出现。它的作用是为梯度更新分配权重，直观上，对于概率较低（即模型认为不太可能生成）的token，给予更大的更新权重，因为这些token可能包含更重要的信息。

对于SFT，其目标函数是最大化对数似然。求导后，分母自然地变成了当前策略。
对于在线RL算法（如PPO），数据是由一个旧版本的策略生成的（即rollout policy），因此参考策略分母就是。这是重要性采样的直接体现。
对于离线RL算法，由于无法获取生成数据的策略，通常会做一个简化假设，令。

4. 稳定化掩码 (Stabilization Mask)
这个组件源于PPO算法中的裁剪（clipping）操作。其目的是为了防止单步更新过大，导致策略崩溃，从而保证训练的稳定性。当策略更新的幅度（通过当前策略与参考策略的比值来衡量）超出一个安全的“信任区域”时，这个掩码会生效，将梯度置为零，从而“关闭”这次更新。后续的算法如CISPO等，也对这个掩码进行了各种形式的改进。

统一视角下的洞察

UPGE框架清晰地表明，SFT和RL并非两个截然不同的过程，而是共享同一个优化目标的梯度估计的不同实例。它们的区别在于对数据分布的假设不同，以及在偏差-方差权衡（bias-variance tradeoff）上做出了不同的选择。

SFT：使用当前策略作为参考策略，相当于进行了有偏的梯度估计，但方差较低，学习过程稳定。
在线RL（如REINFORCE）：使用生成数据的策略作为参考策略，是无偏估计，但方差很高，训练不稳定。
在线RL（如PPO）：使用旧策略作为参考策略，是在偏差和方差之间的一种权衡，通过裁剪操作进一步控制方差。
离线RL：假设，引入了较大的偏差，以换取在没有rollout策略信息的情况下进行训练的可行性。

这个统一的视角不仅为理解现有算法提供了深刻的洞察，更重要的是，它启发我们可以通过组合和设计这四个组件，来构建更优、更适应具体场景的后训练算法。这正是论文提出的“混合后训练”（HPT）算法的理论基础。

混合后训练 (HPT)

基于UPGE的理论洞察，论文提出了一种名为混合后训练 (Hybrid Post-Training, HPT) 的新算法。HPT的核心思想是：根据模型在任务上的实时表现，动态地、自适应地在SFT和RL两种学习信号之间进行切换。

这个设计的直觉非常清晰：

当模型能力较弱，在某个问题上频繁出错、无法获得有效奖励信号时，强制其学习高质量的专家示范（SFT）是更有效的指导方式。这相当于利用（Exploitation） 已知的正确路径。
当模型已经具备一定的能力，能够在问题上取得一些成功（即rollout能获得正奖励）时，就应该给予其更多的自由度，让它通过强化学习去探索（Exploration）可能存在的更优解法，进一步提升能力上限。

HPT算法通过一个巧妙的混合损失（Mixed Loss） 机制来实现这种动态切换。

HPT算法流程

HPT的算法流程（如Algorithm 1所示）可以概括如下：

输入：一个预训练的LLM（策略），一个包含（问题，监督轨迹）的SFT数据集，一个用于评估生成答案正确与否的验证器（verifier），以及其他超参数。
训练循环：对于SFT数据集中的每一个问题：

a. 在线采样 (Rollout) ：使用当前模型策略生成个候选答案轨迹。

b. 性能评估：使用验证器评估每个轨迹的奖励。然后计算模型在该问题上的平均性能。

c. 动态门控：根据性能和一个预设的阈值，确定RL损失和SFT损失的权重系数和。

d. 计算损失：
使用在线采样的轨迹和奖励计算on-policy RL损失 。使用监督轨迹计算SFT损失 。

e. 混合损失与更新：计算最终的混合损失，并用其梯度更新模型参数。

混合损失 (Mixed Loss)

混合损失是HPT算法的核心。让我们更详细地剖析它的构成。

总的混合损失函数定义为：

这里的关键在于系数和是如何根据模型性能动态决定的。论文中使用了一个简单而有效的开关函数：

这里的是模型在当前问题上次采样（rollouts）的平均成功率。是一个“门控阈值”（gate threshold）。

这个机制的含义是：

如果模型的平均成功率大于阈值，那么就设置。此时，总损失，模型完全通过强化学习进行更新。这表示模型在该问题上已经“入门”，可以开始进行探索性学习了。
如果模型的平均成功率 小于等于阈值，那么就设置。此时，总损失，模型完全通过监督微调进行更新。这表示模型在该问题上表现不佳，需要通过模仿专家示范来获得正确引导。

阈值的选择：
阈值控制了算法在SFT和RL之间的切换灵敏度。在实验中，作者对Qwen系列模型设置，这意味着只要模型在次尝试中哪怕有一次成功（），就会切换到RL模式。这是一种鼓励探索的设置。而对于LLaMA模型，则设置了更高的阈值，这表明阈值的选择可能与模型家族的特性有关。

和的具体形式：

RL损失 ：论文中采用了Dr. GRPO（一种GRPO的变体）作为on-policy的RL算法。其损失函数形式如下：

其中，是重要性采样比率，是经过组内归一化后的优势值，，是PPO中的裁剪系数。
SFT损失 ：这就是标准的交叉熵损失，旨在最大化模型生成监督轨迹的对数似然：

通过这种问题级别（per-question）的动态损失加权，HPT算法实现了在利用（exploitation）和探索（exploration）之间的自适应平衡。它不是一个固定的混合比例，也不是一个预设的调度方案，而是完全由模型自身的实时能力反馈所驱动，这使得训练过程更加智能化和高效。

实验与分析

为了验证HPT框架的有效性，论文作者在一系列数学推理基准和多种不同规模、不同家族的模型上进行了广泛的实验。

实验设置：

模型：涵盖了Qwen家族（Qwen2.5-Math-1.5B, Qwen2.5-Math-7B）和LLaMA家族（LLaMA-3.1-8B），以验证算法的通用性。
基准：包括6个分布内的数学推理基准（AIME 2024, AIME 2025, AMC, MATH-500, Minerva, OlympiadBench）和2个分布外的泛化能力基准（GPQA-Diamond, ARC-c）。
基线方法：
- 纯SFT
- 纯GRPO (一种先进的RL算法)
- SFT → GRPO (标准的序贯方法)
- LUFFY, SRFT (其他混合SFT和RL的方法)
- 多种Zero-RL方法（在基础模型上直接进行RL）

主要结果

实验结果（如Table 2所示）表明，HPT在几乎所有的基准测试和模型上都取得了优于或持平于所有基线方法的性能。

在Qwen2.5-Math-7B模型上，HPT的平均性能达到了52.7%，显著高于SFT（44.5%）、GRPO（43.1%）、SFT→GRPO（46.5%）以及LUFFY（49.8%）等强基线。特别是在挑战性的AIME 2024基准上，HPT取得了33.0%的成绩，相比最强的基线LUFFY（26.1%）有近7个百分点的提升。
在分布外泛化能力测试上，HPT同样表现出色，平均分达到62.3%，超过了所有对比方法，显示出其良好的泛化性能。

在其他模型上，包括能力相对较弱的LLaMA3.1-8B和Qwen2.5-Math-1.5B，HPT同样展现了巨大的性能提升。这证明HPT不仅对强模型有效，也能帮助弱模型更好地学习。例如，在LLaMA3.1-8B上，HPT的平均分（18.2%）是基座模型（4.6%）的近4倍，也远超SFT（5.9%）和GRPO（9.6%）。

这些结果有力地证明了HPT的有效性。它不仅优于单独使用SFT或RL，也优于简单的序贯结合或静态混合策略。动态调整学习信号的方式，确实能够更有效地提升模型的推理能力。

4.2 深入分析：探索与利用的平衡

为了进一步理解HPT的工作机制，论文进行了一系列深入的实证分析。

1. Pass@k 性能分析
Pass@k指标衡量的是，模型生成k个答案中至少有一个是正确的概率。它不仅能评估模型的单次生成准确率（Pass@1），还能反映模型的探索能力和能力上限（大的k值）。

Figure 2的Pass@k曲线显示了一个有趣的现象：

包含SFT的方法（SFT, SFT→GRPO, LUFFY, HPT）在大k值下的性能普遍高于纯RL方法（GRPO）。这可能是因为SFT引入了来自模型自身分布之外的数据，增加了输出的多样性，从而提升了探索的广度。
一个直观的猜测是，HPT作为SFT和GRPO的动态混合，其Pass@k性能应该介于两者之间。但实验结果恰恰相反，HPT在所有k值上都取得了最高的性能。这表明HPT不仅仅是简单的插值，它成功地将SFT带来的知识广度和RL带来的深度探索结合起来，既提升了Pass@1的准确率，又最大化地保留并增强了模型的探索能力。

2. 训练动态可视化

通过可视化模型在训练过程中对每个问题的解决能力变化，可以更直观地看到不同训练策略的效果。

Figure 3显示，纯GRPO训练（在SFT之后）在很多难题（Level 5）上会陷入“白色区域”，即模型在多个epoch中始终无法生成正确答案，导致学习停滞。这是RL方法在面对稀疏奖励问题时的典型困境。
Figure 4对比了HPT和SFT→GRPO的性能差异（红色代表HPT更优）。可以看到，在训练后期，红色区域占据了主导，尤其是在难题（Level 5）上。这说明HPT通过在困难问题上动态切换回SFT，有效地克服了RL的学习停滞问题，从而实现了更强的学习能力。

3. 离线数据比例动态

Figure 6展示了在HPT训练过程中，SFT损失（代表离线数据信号）所占比例的变化。

在训练初期，模型能力较弱，SFT的比例很高，表明模型主要在模仿学习。
随着训练的进行，模型能力提升，on-policy的奖励增加，SFT的比例逐渐下降并稳定在一个较低的水平，表明模型转向以RL为主的探索学习。
对比能力较弱的1.5B模型和较强的7B模型，可以发现7B模型更快地从SFT主导阶段过渡到RL主导阶段。这完全符合HPT基于性能反馈的自适应设计。

往期文章：

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31