将强化学习应用于大型语言模型的训练并非易事。这个过程通常伴随着巨大的计算资源消耗,并且训练过程可能很不稳定。 其中一个常见的挑战是“策略漂移”(policy drift),即在训练过程中,模型的策略(policy)可能会逐渐偏离其在预训练阶段学到的有效权重,导致性能下降甚至“灾难性遗忘”(catastrophic forgetting)。此外,强化学习依赖于大量的探索(exploration),模型需要生成海量的候选答案(或称为“轨迹”,trajectories),这其中大部分可能是无效的,从而导致训练效率低下。

为了应对这些挑战,来自快手 Klear 团队的研究人员提出了一种名为 RLEP(Reinforcement Learning with Experience Replay)的创新框架。该框架的核心思想借鉴了强化学习领域一个经典且有效的技术——经验回放(Experience Replay)。通过系统性地收集和重放高质量的成功经验,RLEP 旨在引导模型更专注于有价值的推理路径,减少漫无目的的探索,从而实现更快的收敛速度和更强的最终性能。

  • 论文标题:RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning
  • 论文链接:https://arxiv.org/pdf/2507.07451

背景

1. 经验回放(Experience Replay)

经验回放是强化学习中的一个基础技术,最早由 Lin 在 1992 年提出。其核心思想是创建一个“经验池”(experience pool),用于存储智能体(agent)在与环境交互过程中产生的数据(通常是状态、动作、奖励、下一状态的元组)。在训练时,智能体不是仅仅使用最新产生的经验进行学习,而是从经验池中随机采样一个小批量(mini-batch)的数据进行训练。

这种做法带来了几个好处:

  • 提高数据利用效率:每一次与环境交互产生的经验都可以被多次用于训练,这对于交互成本高昂的场景(例如训练大型语言模型)尤其重要。
  • 打破数据相关性:强化学习的序贯决策过程导致了前后产生的经验之间具有高度的时间相关性,这不符合许多优化算法对数据独立同分布(i.i.d.)的假设。通过随机采样,可以有效打破这种相关性,从而稳定训练过程。
  • 学习稳定状态:经验池中存储了不同时期的经验,使得模型可以从更广泛的策略分布中学习,避免因当前策略的短期波动而陷入局部最优。

在 RLEP 中,经验回放被巧妙地应用于存储和重利用那些被验证为正确的推理轨迹,从而将模型的学习过程引导到更有希望的方向上。

2. GRPO(Group Relative Policy Optimization)

GRPO(组相对策略优化)是近期在大型语言模型强化学习领域受到关注的一种策略优化算法。与传统的基于单一Actor-Critic架构(如 PPO)的方法不同,GRPO 的核心思想是通过在一个“组”(group)内对多个候选答案进行比较来计算相对优势,从而指导策略的更新。

具体来说,对于一个给定的问题(prompt),GRPO 会让当前策略模型生成一组(个)候选答案。然后,一个奖励模型(reward model)会为这组答案中的每一个都给出一个标量奖励(scalar reward)。GRPO 并不直接使用这个绝对的奖励值,而是计算每个答案相对于该组答案平均奖励的优势(advantage)。优势为正的答案(即表现优于平均水平的)会得到强化,而优势为负的答案则会受到抑制。

该论文中 RLEP 的实现便是建立在 GRPO 的基础上。其优势计算公式如下:

其中, 是第 个候选答案的优势, 是其对应的奖励, 分别是该组奖励的均值和标准差。通过这种标准化的方式,GRPO 能够稳定优势的尺度,减少训练过程中的方差。

GRPO 通过组内比较,避免了对一个独立的、需要复杂训练的 Critic 网络(价值网络)的依赖,从而降低了计算和存储开销,提升了训练效率和稳定性。

3. GRPO 的增强策略:Token-mean 和 Clip-higher

为了进一步稳定和优化 GRPO 的训练过程,研究社区提出了一些改进策略,其中两个重要的策略被 RLEP 所采纳:

  • Token-mean(词元级别均值):传统的策略梯度更新通常在序列(sequence)级别计算损失。然而,对于文本生成这类任务,答案序列的长度可能变化很大。一个很长的错误答案可能会因为包含了大量的词元(token)而在损失计算中占据过大的权重,从而惩罚不足。Token-mean 策略将损失的计算从序列级别细化到词元级别,通过对每个词元的对数概率比率(log-probability ratios)进行平均,来防止过长的错误序列稀释学习信号,更好地保留对长序列中正确部分的学习信号。

  • Clip-higher(更高的裁剪上界):在 PPO 及其变体中,为了防止策略更新步子迈得太大导致训练不稳定,通常会使用一个裁剪(clip)函数来限制重要性采样比率(importance sampling ratio)。Clip-higher 策略对这个裁剪函数进行了非对称修改。对于具有正向优势(positive-advantage)的轨迹,它允许一个更高的裁剪上界,而对于负向优势的轨迹则保持标准的下界。这种非对称的裁剪有助于缓解在强化学习训练中常见的“熵崩溃”(entropy collapse)现象,即模型为了追求高奖励而过度收敛到少数几个确定的输出,丧失了探索性和多样性。Clip-higher 鼓励模型在保持探索能力的同时进行有效的利用(exploitation)。

这些技术共同构成了一个优化的基线(baseline),RLEP 在此基础上引入了经验回放机制,从而构建出一个更为高效和强大的训练框架。

RLEP 框架详解:两阶段的优化之旅

RLEP 框架的设计清晰而直观,其核心是将强化学习过程分解为两个相互关联的阶段:经验收集(Experience Collection)基于回放的训练(Replay-based Training)

RLEP 训练流程图
RLEP 训练流程图

第一阶段:经验收集 (Experience Collection)

这个阶段的目标是构建一个高质量的“经验池”,其中存储的是被验证为正确的推理轨迹。整个过程可以类比为一位登山者在初次攀登时,沿途标记出所有能够成功通往小目标的路径点。

具体流程如下:

  1. 获取种子策略(Seed Policy):首先,从一个经过常规强化学习(论文中称为 vanilla RL)训练得到的模型开始。这个模型已经具备了一定的推理能力,可以作为“探路者”。
  2. 生成候选轨迹:对于训练集中的每一个问题,使用这个种子策略模型生成多个(例如64个)候选的推理轨迹。
  3. 验证与筛选:使用一个规则验证器(rule-based verifier)或奖励模型来判断每个轨迹最终得出的答案是否正确。
  4. 存入经验池:所有被验证为正确的轨迹,都会被存储到经验池中。这个经验池是与每个具体问题相关联的,也就是说,每个问题都有自己的一组成功解法集合。

通过这个阶段,RLEP 为后续的训练准备了宝贵的“学习资料”。这些被验证过的成功轨迹,代表了模型在探索过程中发现的有效推理路径,是高质量的“正样本”。

第二阶段:基于回放的训练 (Replay-based Training)

在拥有了经验池之后,就进入了 RLEP 的核心训练阶段。这个阶段的设计巧妙地将“利用”已有的成功经验和“探索”新的可能性结合在了一起,类似于登山者在第二次攀登时,首先快速沿着上次标记好的成功路径前进,节省了大量体力和时间,然后再从那个更高的起点向新的高峰发起冲击。

在每一个训练更新步骤中,流程如下:

  1. 生成新的轨迹(Rollout):当前正在训练的策略模型 会像标准的 GRPO 一样,为一小批问题生成 个新的候选轨迹。这些新轨迹代表了模型的“探索”部分。
  2. 回放成功经验(Experience Replay):同时,对于这批问题,从第一阶段构建的经验池中,为每个问题随机采样 个之前存储的成功轨迹。这些轨迹代表了对过去成功经验的“利用”。
  3. 混合数据批次:将新生成的 个轨迹和回放的 个成功轨迹合并,形成一个大小为 的混合批次(mixed batch)。
  4. 策略更新(Policy Update):在 RLEP 中,策略更新的目标函数基于混合批次进行计算。关键在于,优势 的计算(标准化过程中的均值和标准差)是在整个混合批次(个轨迹)上进行的。

RLEP 的目标函数可以表示为:

其中, 是词元级别的重要性采样比率。而优势项 的计算如下:

这个设计的核心在于,通过将回放的成功轨迹与新生成的轨迹放在同一个基准下进行比较,实现了几个目的:

  • 稳定学习信号:回放的成功轨迹通常具有较高的奖励,它们的存在可以稳定优势计算的基线(baseline),使得新的、可能正确的探索轨迹更容易获得正向的优势信号。
  • 加速收敛:模型在每次更新时都会“复习”已知的正确解法,这有助于策略快速收敛到之前已经达到过的最优性能点,避免了从零开始的低效探索。
  • 防止遗忘:持续地重放成功经验,可以有效地对抗策略漂移,确保模型不会在探索新路径的过程中“忘记”已经掌握的有效推理技巧。
  • 提升性能上限:通过加速收तारण和稳定训练,模型可以将更多的计算资源和探索能力集中在更有希望的方向上,从而有潜力达到比基线方法更高的最终性能。

实验

为了验证 RLEP 框架的有效性,研究人员进行了一系列详尽的实验。

实验基座与数据集

  • 基础模型:实验采用的模型是 Qwen2.5-Math-7B。这是一个在数学推理领域表现出色的开源模型,为实验提供了一个坚实的基础。
  • 数据集:模型的性能在多个具有挑战性的数学竞赛数据集上进行了评估,主要包括:

    • AIME-2024AIME-2025:美国数学邀请赛,题目难度较高,需要复杂的推理步骤。
    • AMC-2023:美国数学竞赛,题目覆盖范围广。

基线方法的优化

在将 RLEP 与标准方法进行比较之前,研究人员首先对一个强大的基线方法 DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) 进行了细致的调优。他们发现,在 PPO(Proximal Policy Optimization)的更新步骤中,mini-batch 的大小对最终性能有显著影响。实验对比了 32 和 64 两种 mini-batch size,结果表明,尽管较小的 batch size 在训练初期学习速度更快,但 64 的 batch size 最终能收敛到更高的准确率,并且训练曲线更为平滑稳定。因此,他们选择了一个优化后的基线版本 DAPO-nodyn-bs64(即不使用动态采样,mini-batch size 为 64)作为与 RLEP 对比的主要参照物。

优化基线方法的性能对比
优化基线方法的性能对比

RLEP 的实验结果

RLEP 的实验设置是在 DAPO-nodyn-bs64 基线的基础上进行的。在经验回放阶段,对于每个问题,模型会生成 16 个新的 on-policy 轨迹,并从经验池中回放 2 个已验证的成功轨迹。

实验结果清晰地展示了 RLEP 框架的优势:

RL wit Experience Replay 的主要实验结果
RL wit Experience Replay 的主要实验结果
  1. 快速的早期增益 (Rapid early gains)

    • 在 AIME-2024 数据集上,RLEP 仅仅用了 135个训练步骤 就达到了基线方法需要 380个步骤 才能达到的峰值性能。
    • 在 AIME-2025 数据集上,RLEP 在 50个步骤 之后就已经超越了基线方法的最佳得分。
    • 这些结果有力地证明,通过回放成功的轨迹,RLEP 能够有效地引导模型避开早期训练中大量的无效探索,将学习资源集中在有价值的推理路径上,从而显著加快了收敛速度。
  2. 更高的最终性能 (Higher final performance)

    • RLEP 的优势并不仅仅在于速度。在所有测试的数据集上,RLEP 的最终性能都超越了精心调优的基线方法。
    • AIME-2024 上,准确率从 38.2% 提升到 39.9% (提升了 1.7个百分点)。
    • AIME-2025 上,准确率从 19.8% 提升到 22.3% (提升了 2.5个百分点)。
    • 在一个未曾见过的(unseen)AMC-2023 数据集上进行离线评估,准确率从 77.0% 提升到 82.2% (提升了 5.2个百分点)。
    • 这些结果表明,RLEP 不仅能让模型更快地达到一个高性能点,还能帮助模型突破原有的性能瓶颈,收敛到一个更优的解。这可能是因为稳定的训练过程和对高质量经验的持续学习,使得模型的策略能够进行更精细和有效的优化。

关于负样本回放的额外探索

研究人员还进行了一项有趣的实验,即尝试在经验池中同时加入失败的轨迹(负样本)进行回放,希望通过这种方式让模型学会“避坑”。然而,实验结果表明,与只回放成功轨迹相比,混合回放并没有带来可测量的性能提升。

对此,论文给出的解释是,错误的模式(error patterns)在不同的模型和训练阶段中千差万别,其分布空间过于宽泛和异构。在一个庞大且多变的“错误空间”中进行学习,很难为当前策略提供稳定和有益的负向梯度信号。相比之下,成功的推理路径虽然也可能多样,但它们共享着通往正确答案的共性,因此更容易被模型学习和归纳。

点评

论文的实验效果非常突出,实现了“既要快,又要好”的双重目标。实验数据显示,RLEP 不仅能用少得多的训练步数达到甚至超越基线模型的峰值性能(加速收敛),还能在最终的绝对性能上取得更高的上限(提升性能)。

RLEP 的经验池是在第一阶段一次性构建的。这意味着,在整个第二阶段的训练中,模型回放的始终是来自同一个“旧”策略分布的经验。如果初始策略存在某些“盲点”(即对某些难题无法生成任何成功轨迹),那么经验池中将永远不会有这些难题的解法,这可能会限制模型性能的上限。经验回放机制可以进行一些改进:周期性地用新策略生成的数据来更新经验池。


往期文章: