引言

大型语言模型(Large Language Models, LLMs)的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督预训练,掌握了强大的语言理解和生成能力。然而,预训练的目标(如“下一个词预测”)本质上是模仿数据分布,这并不足以保证模型生成的内容完全符合人类的价值观和期望。未经对齐的LLM可能会产生不准确、有偏见、有害甚至虚构的内容。

因此,模型对齐(Alignment)应运而生。其核心目标是微调预训练模型,使其行为与人类的意图、偏好和价值观(如有帮助性、诚实性、无害性,即“3H”原则)保持一致。这是确保LLM安全、可靠地部署于现实世界的关键步骤。

为了应对对齐挑战,研究界探索了多种方法,其中基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)迅速成为主导范式。RLHF的核心思想是将人类的偏好数据转化为一个数值奖励信号,然后利用强化学习算法优化语言模型的策略(即其生成文本的方式),以最大化期望奖励。

本报告旨在对LLM对齐领域的现代策略优化算法进行一次全面而深入的调研与总结。我们将从两个奠基性的范式——近端策略优化(PPO)和直接偏好优化(DPO)——开始,探讨它们的核心机制与挑战。随后,我们将深入探讨一系列为解决PPO特定问题而设计的无评论家(critic-free)、基于组(group-based)的算法,包括GRPO及其后续的修正与增强版本:Dr. GRPO、GSPO和GMPO。接着,我们将审视为解决规模化和特定行为塑造问题而设计的高级算法,如DAPO和GFPO。最后,我们将通过LitePPO的视角回归简约,探讨如何通过系统性的实证分析,揭示真正有效的核心机制。

通过梳理这一演进路径,本报告不仅将详细阐述每种算法的数学原理和核心机制,还将揭示该领域研究的内在逻辑——一个不断发现问题、提出解决方案、并在此过程中深化对强化学习与LLM交互机制理解的迭代过程。

第一部分:基于偏好微调的基础范式

在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。

第1节:RLHF流程中的近端策略优化 (PPO)

近端策略优化(Proximal Policy Optimization, PPO)是RLHF框架中最具代表性的算法之一。它由OpenAI在2017年提出,旨在解决传统策略梯度方法训练不稳定、对步长选择敏感的问题。PPO的核心思想是通过在策略更新中引入“信任区域”的概念,限制新旧策略之间的差异,从而实现稳定高效的训练,成为了对齐研究的基石。

1.1. 经典的三阶段RLHF流程

标准的PPO-RLHF流程是一个系统性的工程,旨在将抽象的人类偏好转化为具体的模型行为。它主要包含以下三个阶段:

  1. 监督微调(Supervised Fine-Tuning, SFT): 首先,选择一个预训练好的LLM作为基础模型。然后,使用一个高质量、人工策划的指令-回答数据集对该模型进行微调。这个阶段的目标是让模型初步具备遵循指令和进行特定任务(如对话、摘要)的能力,为后续的RL阶段提供一个良好的策略起点。

  2. 奖励模型(Reward Model, RM)训练: 此阶段的核心是将人类偏好量化。首先,针对一系列提示(prompts),使用SFT模型生成两个或多个不同的回答。然后,人类标注员对这些回答进行排序,指出哪个更好。这些成对的偏好数据(例如,对于提示 ,回答 优于 )被用来训练一个独立的奖励模型 。该模型输入一个提示和回答,输出一个标量分数,分数越高代表该回答越符合人类偏好。奖励模型通常基于Bradley-Terry模型进行优化,最大化预测偏好与人类标注一致的概率。

  3. 强化学习微调(RL Fine-Tuning): 这是最后也是最核心的阶段。SFT模型作为初始策略 ,在RL环境中进行优化。环境每次提供一个提示 ,策略模型 生成一个回答 。随后,训练好的奖励模型 对这个回答 进行评分,得到一个奖励值。PPO算法的目标就是最大化这个奖励值,同时通过一个KL散度惩罚项来约束优化后的策略 不过于偏离初始的SFT策略 ,以防止模型遗忘预训练知识或产生语法不通顺的文本。

在这个框架中,PPO需要协调四个模型:

  • 策略模型(Policy Model): 正在被优化的LLM,即Actor。
  • 价值模型(Value Model): 通常称为Critic,用于评估在给定状态下策略可能获得的期望回报,以降低策略梯度的方差。
  • 奖励模型(Reward Model): 在RL微调阶段参数固定,为策略模型提供奖励信号。
  • 参考模型(Reference Model): 通常是SFT模型的副本,参数固定,用于计算KL散度惩罚。

1.2. PPO目标的详细数学公式

PPO的最终优化目标是一个复合函数,由三个核心部分组成:策略损失(Clipped Surrogate Objective)、价值损失(Value Function Loss)和熵奖励(Entropy Bonus)。

1.2.1. 截断代理目标 (LCLIP)

这是PPO算法的核心,旨在在不进行过大策略更新的前提下最大化优势函数(Advantage Function)。其数学表达式为:

这里我们对每个组成部分进行详细解释:

  • 表示在一个批次(batch)的样本上取经验平均。
  • 是重要性采样比率(importance ratio),定义为新策略 和旧策略 (即进行梯度更新前的策略)在时间步 对动作 的概率之比:


    在LLM的上下文中, 是已经生成的token序列, 是下一个要生成的token。这个比率衡量了策略更新的幅度。如果 ,说明新策略更倾向于生成这个token;反之则更不倾向。

  • 是在时间步 的优势估计(advantage estimate)。它衡量了在状态 下采取动作 相对于平均水平的好坏程度。一个正的优势值意味着这个动作比预期的要好,反之则差。优势函数通常通过广义优势估计(Generalized Advantage Estimation, GAE)计算,它平衡了偏差和方差。
  • 是截断函数。它将比率 限制在 的区间内。 是一个小的超参数(通常为0.2)。
  • 操作是PPO的关键。

    • 当优势 时,目标函数变为 。这意味着即使 变得非常大,对目标函数的贡献也被限制在 ,从而防止策略为了获得高奖励而进行过于激进的更新。
    • 当优势 时,目标函数变为 (因为 是负数,所以min变成了max)。这防止了策略为了避免惩罚而过度降低某个动作的概率。

通过这种方式,PPO将策略更新限制在一个“信任区域”内,确保了训练的稳定性。

1.2.2. 价值函数损失 (LVF)

PPO通常与一个评论家(critic)网络(即价值函数 )一起训练,该网络的目标是准确估计在给定状态 下未来奖励的总和。价值函数的主要作用是作为基线(baseline)来计算优势 ,从而显著降低策略梯度的方差。价值函数的损失通常是一个简单的均方误差(MSE):

其中, 是回报的蒙特卡洛估计,即从时间步 开始的累积折扣奖励。

1.2.3. 熵奖励 (S)

为了鼓励策略进行充分的探索,避免过早地收敛到次优的确定性策略,PPO的目标函数中通常会加入一个熵奖励项。熵 衡量了策略在状态 下输出动作的随机性。最大化熵等同于让策略的概率分布更平坦,从而探索更多可能性。

1.2.4. 最终复合目标

PPO的最终优化目标是上述三个部分的加权和。策略网络和价值网络可以共享部分参数,并通过一个统一的损失函数进行端到端的优化:

其中, 是用于平衡各项损失重要性的超参数。在每个优化步骤中,算法通过最大化这个 来更新模型参数

1.3. 核心挑战分析

尽管PPO在RLHF中取得了巨大成功,但将其应用于LLM时面临着诸多严峻挑战,这些挑战也催生了后续算法的诞生。

  • 系统复杂性: PPO-RLHF流程需要同时协调四个大型模型:策略模型、价值/评论家模型、奖励模型和参考模型。这种多模型架构使得训练、调试和扩展变得极其困难和昂贵。
  • Reward Hacking: 这是一个根本性问题,即策略模型学会了利用奖励模型的漏洞来获得高分,而其生成的回答在人类看来质量并未提升,甚至更差。这种现象也被称为“模式崩溃(pattern collapse)”。模型会发现某些特定的文本模式或风格(如过度礼貌、冗长)能稳定地骗取奖励模型的高分,从而过度生成这些模式,导致输出质量下降。这暴露出RLHF的上限严重依赖于奖励模型的质量和鲁棒性。
  • KL散度控制: 在RLHF中,KL散度惩罚项被直接加入到奖励中:。这个惩罚项至关重要,它既作为熵奖励鼓励探索,又防止策略偏离SFT模型太远。然而, 的取值非常敏感:如果 太小(约束太弱),策略可能会过度优化奖励模型,导致策略发散和奖励滥用;如果 太大(约束太强),则会扼杀模型的学习能力,使其无法充分利用奖励信号进行改进。找到KL散度的最佳平衡点是PPO调优中的一个核心难题。

第2节:直接偏好优化 (DPO):绕过奖励模型

鉴于PPO-RLHF的复杂性,研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化(Direct Preference Optimization, DPO)应运而生,它巧妙地绕过了显式的奖励建模和复杂的RL优化循环,为偏好对齐提供了一个优雅的替代方案。

2.1. 理论基础

DPO的核心洞见在于,标准的RLHF目标(即KL约束下的奖励最大化)存在一个封闭形式的最优解。这意味着,对于任意一个奖励函数 ,其对应的最优策略 可以被解析地表示出来:

其中, 是确保概率归一化的配分函数, 是控制KL惩罚强度的超参数。

DPO的关键一步是逆向操作:将这个方程重新整理,用最优策略 和参考策略 来表示奖励函数

这个奖励函数的重参数化是DPO理论的基石。它建立了一个从策略空间到奖励空间的直接映射,意味着任何一个语言模型策略都隐含地定义了一个奖励函数。

2.2. DPO损失函数的数学推导

DPO的损失函数推导过程巧妙地将上述理论与人类偏好模型结合起来。

  1. 从Bradley-Terry模型开始: 与奖励建模阶段类似,DPO假设人类偏好遵循Bradley-Terry (BT) 模型。该模型指出,人类偏好回答 胜过 的概率 取决于它们在某个潜在的真实奖励函数 下的得分差异:

    其中 是logistic sigmoid函数。

  2. 代入重参数化的奖励: 现在,我们将上一节中推导出的重参数化奖励公式(应用于真实奖励 和其对应的最优策略 )代入BT模型中的

    一个至关重要的观察是,未知的配分函数项 在相减过程中完全抵消了。这使得奖励差异可以完全用策略来表示:


  3. 构建最大似然目标: 有了这个只依赖于策略的偏好概率表达式,DPO就可以直接为策略模型 构建一个最大似然目标。给定一个人类偏好数据集 ,DPO的目标是最大化观测到这些偏好的对数似然。这等价于最小化负对数似然损失,即DPO的最终损失函数:

    这个损失函数本质上是一个简单的二元交叉熵损失。它激励 提高其对 的相对概率(相对于 ),同时降低其对 的相对概率。

2.3. 对比分析

DPO与PPO-RLHF相比,展现出显著的优势:

  • 简洁性: DPO将复杂的RLHF流程简化为一步监督微调。它不需要训练一个独立的奖励模型,也不需要复杂的强化学习采样和优化循环。
  • 稳定性与效率: 由于避免了RL训练中的不稳定性(如奖励滥用和超参数敏感性),DPO的训练过程通常更稳定,计算效率也更高。
  • 性能: 实验表明,DPO不仅实现起来更简单,而且在多种任务(如摘要和对话)上能够达到甚至超过PPO的性能。DPO训练的模型在与人类评估者的比较中也表现出更高的胜率。

总而言之,DPO通过一个深刻的理论洞见,成功地将偏好学习问题转化为了一个可以直接优化的分类问题,极大地简化了LLM的对齐过程。

第二部分:无评论家、基于组的策略优化兴起

尽管DPO提供了一条优雅的替代路径,但在许多需要模型进行复杂、多步推理的任务(如数学、编程)中,基于强化学习的方法依然显示出独特的优势。这类任务的奖励通常是二元的(答案正确或错误),可以通过程序自动验证,这被称为可验证奖励的强化学习(RL with Verifiable Rewards, RLVR)。然而,PPO的计算和内存开销依然是一个巨大的障碍,特别是其与策略模型大小相当的评论家模型。这催生了一系列旨在保留RL优势同时降低其复杂性的新算法。

这一系列算法的演进过程揭示了一个清晰的研究轨迹。首先,GRPO通过移除PPO中资源消耗巨大的评论家模型,实现了在推理任务上的重大效率突破。然而,这一看似简单的改动并非没有代价,它引入了一系列更微妙的、先前未被充分认识的问题。随后的“G家族”算法——Dr. GRPO、GSPO、和GMPO——可以被看作是对GRPO核心框架的一系列精准“补丁”。每一个新算法都识别并修正了GRPO的一个特定缺陷,共同完善了最初的“无评论家”概念,使其变得更加稳定和可控。

第3节:组相对策略优化 (GRPO)

组相对策略优化(Group Relative Policy Optimization, GRPO)是DeepSeek在训练其DeepSeekMath模型时提出的一种高效RL算法,其核心目标是解决PPO在LLM推理任务中的资源瓶颈。

3.1. 动机与核心机制

  • 动机: 标准PPO需要训练一个与策略模型大小相当的评论家(价值)模型,这带来了巨大的内存和计算负担。此外,在LLM推理任务中,奖励通常只在生成序列的末尾给出(例如,最终答案是否正确),这使得为每个token训练一个精确的价值函数变得非常困难。
  • 核心机制: GRPO的核心创新是放弃评论家模型,转而采用一种基于组采样的基线估计方法。具体来说,对于每一个问题(prompt),算法会使用旧策略 采样生成一个包含 个不同回答的“组” 。然后,通过比较这个组内各个回答的奖励,来估计每个回答的优势。

3.2. GRPO目标的数学公式

GRPO的目标函数在形式上与PPO类似,但其优势项 的计算方式完全不同。GRPO的目标函数 定义为:

其中,关键的优势估计 (对于同一回答 中的所有token 都相同)计算如下:

  • 是回答 通过奖励模型(或验证器)获得的标量奖励。
  • 是组内所有回答奖励的平均值。
  • 是组内所有回答奖励的标准差。

这个公式的直观解释是:一个回答的优势不再是与一个学习到的价值函数进行比较,而是与其“同伴”(在同一次采样中生成的其他回答)进行比较。如果一个回答的奖励高于组内平均水平,它就获得正优势;反之则获得负优势。通过标准差进行归一化,可以使优势值保持在稳定范围内。这种方法巧妙地利用了奖励模型的比较天性,因为奖励模型本身通常就是通过比较成对的输出来训练的。

3.3. 应用与性能

GRPO在DeepSeekMath模型的训练中发挥了关键作用。通过使用GRPO进行RL微调,DeepSeekMath-RL 7B模型在多个数学推理基准测试上取得了显著的性能提升,例如在GSM8K上的准确率从SFT后的82.9%提升到88.2%,在MATH上的准确率从46.8%提升到51.7%,超越了当时所有同等规模的开源模型。这证明了GRPO作为一种资源高效的RL算法,在提升LLM复杂推理能力方面的有效性。

第4节:对基于组的方法的稳定性和无偏性改进

GRPO的无评论家设计虽然高效,但也引入了一些新的问题。后续研究精准地识别并解决了这些问题,进一步完善了基于组的优化框架。

4.1. Dr. GRPO:修正固有偏差

对GRPO的深入分析揭示了其目标函数中存在的两种系统性偏差:

  • 问题诊断:

    1. 回答级别的长度偏差 (Response-level length bias): 源于目标函数中的 项。当优势为正时,这个因子会给予较短的正确回答更大的梯度更新,鼓励模型生成简短的正确答案。然而,当优势为负时,它会使得较长的错误回答受到更小的惩罚,从而无意中鼓励模型在犯错时“胡言乱语”,生成更长的错误答案。
    2. 问题级别的难度偏差 (Question-level difficulty bias): 源于优势计算中的 项。对于那些所有回答都正确(非常简单)或都错误(非常困难)的问题,组内奖励的标准差会非常小,接近于零。这会导致优势值被极大地放大,使得这些简单或困难的问题在梯度更新中占据过大的权重,从而产生对特定难度的偏好。
  • 解决方案: Dr. GRPO ("Doctor" GRPO) 的解决方案非常直接:移除这两个导致偏差的归一化项。即,在计算策略梯度时不除以回答长度 ,在计算优势时不除以奖励的标准差。修正后的无偏策略梯度更接近于标准的PPO目标,其优势项简化为中心化的回报:


  • 关于移除方差项的讨论: 在强化学习中,通过奖励的标准差来归一化优势(即优势标准化)是一种常见的稳定化技术。它将优势值缩放到一个固定的范围内(通常是均值为0,方差为1),这有助于稳定梯度更新,防止因奖励尺度变化而导致的训练不稳定。然而,Dr. GRPO的研究者发现,在LLM推理任务的特定背景下,这种稳定化措施带来了一个副作用,即“难度偏差”。对于那些模型能轻易解决或完全无法解决的问题,组内奖励的方差趋近于零,导致优势被放大到极端值,从而主导了梯度更新。

    因此,Dr. GRPO选择移除方差项,这是一种设计上的权衡。它放弃了优势标准化带来的梯度稳定性,以换取对所有难度问题一视同仁的无偏学习信号。这表明,虽然方差归一化在通用RL中是一个有用的工具,但在特定应用场景下,它可能引入不期望的归纳偏置。后续算法(如LitePPO)则采取了折衷方案,在更大的批次(batch)级别上计算方差,以获得更鲁棒的估计,这反映了社区对这一问题仍在不断探索和优化。

  • 影响: 通过消除这些偏差,Dr. GRPO在保持与GRPO相当的推理性能的同时,显著提升了token效率。它有效抑制了模型在训练过程中生成越来越长的错误回答的趋势,使得训练更加稳健和高效。

4.2. GSPO:转向序列级优化以实现稳定性

  • 问题诊断: 在对大规模模型(特别是MoE架构)进行GRPO训练时,研究人员观察到了“灾难性且不可逆的模型崩溃”现象。其根源被追溯到GRPO在token级别应用重要性采样的根本性问题。重要性采样的有效性依赖于对多个样本的平均来修正分布不匹配,但在token级别,每个下一步token的分布只有一个采样点,这使得重要性权重充满了高方差的噪声。这种噪声在长序列中会累积,并被截断机制放大,最终导致训练崩溃。

  • 解决方案: GSPO (Group Sequence Policy Optimization) 的核心思想是将优化的基本单元与奖励的授予单元对齐。既然奖励是授予整个序列的,那么重要性采样和截断也应该在序列(sequence)级别进行。GSPO定义了序列级别的重要性比率 ,并对其进行长度归一化以减小方差:

    其目标函数相应地变为在序列级别进行截断:

    在这个框架下,一个序列中的所有token都受到同一个、更稳定的序列级重要性比率的加权。

  • 影响: GSPO的序列级方法提供了更可靠、更有效的学习信号,从而展现出卓越的训练稳定性,尤其是在训练大型MoE模型时。它从根本上解决了专家激活不稳定的问题,无需复杂的变通方法,并实现了更高的训练效率。

4.3. GMPO:利用几何平均值增强对异常值的鲁棒性

  • 问题诊断: GRPO的目标函数本质上是在优化token级别重要性加权奖励的算术平均值。算术平均值的一个众所周知的弱点是它对异常值(outliers)非常敏感。在RL训练中,某些token可能会因为策略的剧烈波动而产生极端的重要性采样比率,这些异常值会主导整个梯度更新,导致策略更新不稳定。

  • 解决方案: GMPO (Geometric-Mean Policy Optimization) 提出用几何平均值来替代算术平均值。几何平均值在数学上对极端大值不那么敏感。虽然相关论文摘要中未提供GMPO目标函数的精确数学形式,但其核心思想可以进行概念性对比:

    • GRPO (算术平均):
    • GMPO (几何平均, 推断):
      由于几何平均值涉及乘积和开方,单个极大的项对最终结果的影响会被其他项“拉平”,从而使得整体目标函数对异常的token奖励更具鲁棒性。
  • 影响: GMPO使得重要性采样比率在训练过程中保持在一个更稳定的范围内,减少了极端值的出现。这不仅提高了训练稳定性,还允许使用更大的截断范围(),从而促进了更充分的策略探索。实验表明,GMPO在多个数学和多模态推理基准上均优于GRPO。

第三部分:面向可扩展性和特定行为的高级算法

随着RL在LLM对齐中应用的深化,研究的焦点开始从核心算法的稳定性转向解决更大规模训练中出现的实际工程问题,以及如何更精细地塑造模型的特定行为。这一阶段的发展轨迹呈现出一种有趣的“钟摆效应”:在PPO的原始复杂性之后,GRPO带来了效率上的简化;紧接着,DAPO为了解决规模化应用中的一系列棘手问题,又引入了多种精巧的机制,使系统再度复杂化;最终,LitePPO的出现标志着钟摆再次摆向简约,但这一次是建立在对各种“技巧”进行系统性解构和验证基础上的“有原则的简约”。

第5节:DAPO:面向规模化RL的工程感知方法

DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) 并非一个全新的理论框架,而是一个集成了多种实用技术的、为解决大规模LLM RL训练中实际挑战而设计的算法系统。

5.1. 应对系统级瓶颈

DAPO旨在解决几个在规模化训练中常见的棘手问题:

  • 熵崩溃 (Entropy Collapse): 在RL初始阶段,策略的熵(随机性)可能会迅速下降,导致模型过早地变得确定化,从而限制了探索,陷入局部最优。
  • 奖励噪声 (Reward Noise): 对于因超出长度限制而被截断的回答,简单的奖励设计可能会惩罚一个本应正确的推理过程,从而引入噪声,影响训练稳定性。
  • 梯度消失问题 (Gradient-decreasing Problem): 当一个采样批次(batch)中的所有回答都正确(准确率100%)或都错误(准确率0%)时,组内所有回答的奖励都相同,导致计算出的优势(advantage)全为零。这样的批次对策略更新没有任何贡献,浪费了计算资源,降低了训练效率。

5.2. DAPO技术组件的深入剖析

DAPO通过四个关键技术来应对上述挑战,这些技术共同构成了其优化目标:

  1. 更高截断 (Clip-Higher): 为了解决熵崩溃问题,DAPO修改了PPO的截断机制。它将截断区间的上下界解耦,即 。通过设置一个比 更大的 ,该策略允许那些原本概率较低的token有更大的空间来提升其概率,从而增强了策略的熵,促进了生成样本的多样性和探索。

  2. 动态采样 (Dynamic Sampling): 为了解决梯度消失问题,DAPO引入了一种数据过滤策略。在训练过程中,它会主动过采样并丢弃那些所有回答都正确或都错误的组。这确保了每个用于梯度计算的批次都包含混合了正确和错误回答的样本,从而保证了非零优势的存在,使得每个样本都能提供有效的学习信号。

  3. token级策略梯度损失 (Token-Level Policy Gradient Loss): 原始GRPO的损失在序列级别进行平均(即包含 项),这会导致长序列中的每个token对总损失的贡献被稀释。在长链思维(Long-CoT)场景中,这既可能妨碍模型学习高质量长序列中的关键推理模式,也可能无法有效惩罚过长回答中的无意义内容。DAPO采用了token级别的损失聚合,其损失函数的分母是批次内所有token的总数 ,而不是在序列间进行平均。这确保了每个token对梯度更新的贡献是均等的,无论它来自长序列还是短序列。

  4. 超长回答的奖励塑造 (Overlong Reward Shaping): 为了处理截断引入的奖励噪声,DAPO首先采用超长过滤(Overlong Filtering)策略,即在训练中屏蔽掉被截断样本的损失。此外,它还引入了软性超长惩罚(Soft Overlong Punishment),这是一个与长度相关的惩罚机制。当回答长度超过预设的最大值 时,会施加一个惩罚,且惩罚力度随长度增加而变大。这个惩罚项被加到基于规则的正确性奖励之上,引导模型避免生成不必要的冗长回答。

通过这些改进,DAPO在AIME 2024等数学推理基准上取得了当时最先进的性能,仅用一半的训练步数就超越了之前的SOTA模型,证明了其在规模化RL训练中的高效性和稳定性。

第6节:GFPO:面向简洁高效推理的组过滤策略优化

在RLVR的实践中,研究者观察到一个普遍现象:模型为了追求更高的正确率,倾向于生成越来越长的回答,即“长度膨胀(length inflation)”。这些冗长的回答中包含了大量与核心推理无关的“填充”文本,严重影响了推理效率。GFPO (Group Filtered Policy Optimization) 的提出,标志着优化目标的又一次演进:从单纯追求结果的正确性,转向同时优化答案的简洁性和效率。

6.1. “多采样,少思考”的哲学

GFPO的核心理念是“多采样,少思考”(Sample More to Think Less)。它通过在训练阶段投入更多的计算资源,来换取推理阶段的更高效率。具体而言,训练时让模型为每个问题生成一个更大的候选回答组,然后根据某个期望的属性(如简洁性)从中筛选出一小部分最优质的回答,并只用这个精英子集来更新模型。通过反复接触和学习这些简洁而正确的范例,模型逐渐内化了这种高效的推理模式,从而在部署和推理时能够“少思考”,即用更短的步骤得出答案。

6.2. 拒绝采样机制与过滤优势

GFPO通过一个拒绝采样(Rejection Sampling)算法来实现上述思想:

  1. 采样: 对于一个问题 ,从旧策略 采样一个大的候选组
  2. 评分: 使用一个预定义的metric(·)函数为组中的每个回答 打分。这个指标可以是回答长度(鼓励简洁)、token效率(reward/length,鼓励高效)等。
  3. 筛选: 根据分数对所有回答进行排序,并选出最符合要求(比如最短)的 个回答,形成保留子集
  4. 掩码: 创建一个二进制掩码 ,如果回答 被选中(即 ),则 ,否则

这个筛选过程被整合到优势函数的计算中,形成了过滤优势(Filtered Advantage)

这里的关键在于:

  • 基线来自子集: 优势计算中的均值 只在被选中的子集 内部计算。这使得模型在已经满足简洁性等要求的回答中,进一步学习区分好坏。
  • 掩码的作用: 对于被拒绝的回答(),其优势直接被置为零。这意味着这些不符合期望行为(如过于冗长)的回答完全不参与策略梯度的计算,从而不会对模型更新产生影响。

6.3. 权衡分析

GFPO的代价是训练时更高的采样开销,因为需要生成和评估比实际用于学习的样本多得多的候选回答。但这一代价换来的是显著的推理时效率提升。在AIME、GPQA等多个基准测试中,GFPO在保持甚至略微提升准确率的同时,能够将GRPO等方法造成的长度膨胀减少40%到80%以上。这种能力使其成为在对推理延迟和计算成本敏感的应用场景中,训练高效推理模型的有力工具。

第四部分:综合与结论分析

在经历了从基础范式到复杂工程实践的演进后,LLM对齐领域的算法研究开始进入一个反思和提炼的阶段。LitePPO的出现正是在这一背景下,通过系统性的实证研究,旨在拨开迷雾,揭示真正有效的核心机制,倡导一种“有原则的简约”。

第7节:LitePPO:有原则的简约之力

在RL4LLM领域,随着各种算法和“技巧”的不断涌现,从业者面临着一个日益严峻的挑战:如何在众多看似正交的技术中进行选择和组合,以在特定场景下释放LLM的学习潜力。LitePPO的提出,正是为了应对这一挑战。

7.1. 解构RL“技巧”

LitePPO并非一个全新的算法,而是对现有PPO框架中各种技术进行严格解构和评估后的产物。其研究方法论的核心是,在一个统一的开源框架下,独立地评估每种技术(如不同的归一化策略、截断方法、损失聚合粒度等)的实际影响,从而避免了因实验设置、数据分布或模型初始化的不一致而导致的混淆结论。这项工作揭示了大多数RL技术对实验设置(如模型类型、数据难度、奖励机制)具有明显的偏好和敏感性,从而为从业者提供了清晰的应用指南。

7.2. 极简组合

研究最终发现,一个仅由两种关键技术组成的极简组合,应用于一个无评论家的、使用vanilla PPO损失的框架,就能够稳定地提升性能,甚至超越GRPO和DAPO等更复杂的策略。这两个核心技术是:

  1. 鲁棒的优势归一化 (Robust Advantage Normalization): 该技术结合了组级别和批次级别的统计量。具体来说,优势的均值在组(group)级别计算,而标准差在整个批次(batch)级别计算

    • 原理: 在组级别计算均值(即减去同一问题下其他回答的平均奖励)可以提供稳定的指导信号,因为它直接反映了相对好坏。而在批次级别计算标准差,由于批次大小远大于组大小,可以提供更强的正则化效果,避免因某个组内奖励分布极端(例如,标准差接近零)而导致的梯度爆炸问题。这种混合方法兼顾了指导的稳定性和正则化的鲁棒性。
  2. token级损失聚合 (Token-Level Loss Aggregation): 与DAPO中采用的技术类似,LitePPO主张在计算总损失时,对批次内所有token的损失进行求和,然后除以token总数,而不是在序列之间取平均。

    • 原理: 这种聚合方式确保了每个token对总损失的贡献是均等的。这对于训练基础模型(base models)尤为重要,因为基础模型需要从长而复杂的正确推理链中充分学习知识,而token级聚合可以克服序列级聚合中存在的“长度偏差”问题(即长序列中单个token的信号被稀释)。

7.3. 简化框架的性能

LitePPO的价值在于其“少即是多”的哲学。实验结果表明,这个仅包含两种精心选择的技术的简化框架,在多种模型和数据集上,其性能持续优于集成了多种复杂技术的GRPO和DAPO。这一发现挑战了当前RL流程过度工程化的趋势,并强调了根据具体环境(如模型是否对齐、数据难度等)自适应地选择技术的重要性,而不是盲目堆砌所有看似有用的“技巧”。

第8节:专题讨论:为何DPO与GRPO并行发展?

一个常见的观察是,在学术界和工业界的讨论中,DPO似乎在一段时间后热度有所减退,而GRPO及其变体则成为提升模型推理能力的新宠。这种现象并非意味着一种算法优于另一种,而是反映了LLM对齐任务的日益分化和专业化。

  • DPO的领域:通用偏好对齐的基础设施
    DPO的 brilliantly之处在于它将复杂的RLHF流程简化为一个稳定的、类似监督学习的框架。它极其擅长处理那些基于人类主观偏好的对齐任务,例如:

    • 风格与语调:让模型说话更礼貌、更专业或更有趣。
    • 安全性与无害性:拒绝回答有害问题,避免生成有偏见的内容。
    • 帮助性:生成更符合用户模糊意图的、结构更清晰的回答。

    在这些场景下,人类偏好通常是成对的(AB好),难以用一个绝对的标量分数来精确衡量。DPO的分类损失函数与这种数据形式完美契合。因此,DPO并没有“销声匿迹”,而是已经成为许多机构进行基础安全和风格对齐的标准工具和基础设施。它解决的是对齐的“下限”问题,即确保模型行为符合基本的人类规范。

  • GRPO的领域:提升推理能力的“奥林匹克赛场”
    与此同时,研究的前沿阵地转移到了提升LLM在复杂、多步推理任务上的能力,例如数学、编程和科学推理。这类任务具有一个关键特性:它们的正确性通常可以被程序自动验证(RL with Verifiable Rewards, RLVR)。这为强化学习提供了一个近乎完美的训练环境:

    • 清晰的奖励信号:奖励不再是模糊的人类偏好,而是来自验证器的、通常是二元(正确/错误)的清晰信号。
    • 迭代式自我提升:模型可以通过大量的“练习”(生成解法 -> 获得反馈 -> 更新策略)来不断提升解决问题的能力,这正是RL的核心优势。

    GRPO及其后续算法正是为这个“赛场”量身定做的。它们通过移除评论家模型,极大地降低了RL训练的成本,使得在这种数据驱动的迭代循环中进行大规模训练成为可能。因此,GRPO的流行,反映了社区当前的研究焦点——探索LLM智能的“上限”,即它能达到的最高推理水平。

综上所述,DPO和GRPO并非竞争关系,而是互补关系。DPO为模型打下了通用对齐的坚实基础,而GRPO则是在此基础上,针对特定高阶能力进行强化训练的利器。二者的并行发展,标志着LLM对齐技术正走向成熟和专业化。

第9节:比较框架与未来展望

9.1. 策略优化算法的比较分析

为了系统地总结和对比本报告中讨论的九种算法,下表从多个维度对它们进行了梳理,旨在为研究人员和从业者提供一个清晰的参考框架。

算法 核心思想 是否使用评论家 主要创新点 关键优势 目标问题
PPO 将策略更新限制在信任区域内以稳定学习。 截断代理目标函数。 稳定、鲁棒。 通用RL对齐(RLHF)。
DPO 通过分类损失直接在偏好对上优化策略。 将奖励重参数化为最优策略的函数。 简洁、稳定、无RM/RL循环。 通用RL对齐(RLHF)。
GRPO 使用一组样本的奖励统计量来估计优势。 基于组的优势估计。 内存/计算效率高。 资源密集型的推理任务。
DAPO 系统性地应用一套技术来解决大规模RL问题。 Clip-Higher、动态采样等的组合。 解决特定的训练病理问题。 规模化训练的可扩展性和稳定性。
Dr. GRPO 从GRPO目标中移除已识别的长度和难度偏差。 无偏的损失函数形式。 token效率更高,偏差更小。 GRPO中的长度/难度偏差。
GSPO 在序列级别执行重要性采样和截断。 序列级重要性采样。 极高的稳定性,尤其对MoE模型。 token级更新的不稳定性。
GMPO 使用奖励的几何平均值以对异常值保持鲁棒。 目标函数中使用几何平均。 对异常奖励值的鲁棒性。 奖励异常值导致的不稳定。
GFPO 在更新前根据行为指标过滤采样的轨迹。 对轨迹进行拒绝采样。 生成简洁、高效的回答。 回答长度膨胀问题。
LitePPO 组合归一化和损失聚合的最佳实践。 对现有技术的有原则配置。 以最小的复杂性实现高性能。 RL流程中的过度工程化。

9.2. 识别总体趋势

纵观这些算法的演进,可以识别出几个清晰的宏观趋势:

  1. 向无评论家方法的转变及其后果: 从PPO到GRPO的转变,标志着社区为了解决计算和内存瓶颈,普遍接受了移除评论家模型的设计。然而,这一简化并非一劳而逸,它催生了对优势估计稳定性和无偏性的新一轮深入研究,并直接导致了Dr. GRPO、GSPO和GMPO等一系列“修复性”算法的诞生。
  2. 复杂性与简约性的钟摆效应: 算法的发展路径呈现出一种从复杂(PPO)到简化(GRPO),再到为解决实际问题而增加工程复杂性(DAPO),最终回归到基于深刻理解的“有原则的简约”(LitePPO)的动态过程。这表明该领域正在从“发明新公式”走向“提炼基本原理”。
  3. 从结果优化到行为塑造的演进: 早期的算法主要关注最大化一个代表“好坏”的标量奖励。而以GFPO为代表的新方法,则开始关注优化生成过程本身的属性(如简洁性)。通过数据过滤而非奖励工程来塑造期望行为,这为LLM对齐开辟了新的、更具模块化的技术路径。

9.3. 对算法发展轨迹的总结性思考

LLM策略优化的未来方向可能将更加关注数据本身和对核心机制的深刻理解。像GFPO那样的数据中心方法(data-centric methods),即通过智能地筛选和塑造训练数据分布来引导模型行为,可能会变得越来越重要。同时,像LitePPO那样通过严谨的实证分析来“蒸馏”出最关键、最有效的组件,将有助于构建更简单、更鲁棒、更易于理解和复现的对齐流程。未来的突破可能不再仅仅来自于设计更复杂的损失函数,而更多地来自于对学习过程本身的洞察,以及如何通过数据和最少的机制来有效地引导这一过程。


往期文章: