在RLVR的实践中,主流的研究方向长期聚焦于“数据为中心”(Data-Centric)的理念。研究者们投入大量精力进行算法设计(如PPO、GRPO及其变体)、数据筛选与管理、以及奖励机制的精细化设计。这种方法的底层逻辑是,通过提供更多、更高质量的训练数据,或者设计更优的算法来处理这些数据,模型的性能就能得到提升。这一理念在许多场景下确实卓有成效。

然而,随着模型能力的提升和研究的深入,一个现实的瓶颈逐渐显现:高质量的推理数据,特别是那些包含复杂、多步推理过程的专家级解题数据,其获取成本极其高昂且数量稀少。单纯依赖扩大数据规模的策略,正面临着收益递减的困境。此时,一个核心问题摆在了我们面前:我们是否已经充分利用了手中宝贵的每一条数据?当模型在某些难题上反复失败、陷入“学习停滞”时,我们是应该继续投入巨大成本去寻找更多新数据,还是应该反思如何更智能地利用现有数据来帮助模型突破瓶颈?

正是基于这样的思考,来自浙江大学和阿里巴巴通义实验室的研究者们在论文《From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization》中,提出了一种视角的转变:从“数据为中心”转向“样本为中心”(Sample-Centric)。他们认为,不应将所有训练样本一视同仁,而应根据模型在每个独立样本上的学习动态,来动态地、精细化地调整训练策略。

  • 论文标题:From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization
  • 论文链接:https://arxiv.org/pdf/2507.06573

为了实现这一目标,他们提出了一个名为 LPPO(Learning-Progress and Prefix-guided Optimization) 的渐进式优化框架。该框架模仿了人类学习的两个核心特征:

  1. 寻求提示:当我们遇到一个百思不得其解的难题时,我们通常不会直接放弃或去看完整答案,而是会寻求一个“提示”(hint),帮助我们打开思路,然后自己完成剩下的部分。
  2. 聚焦进步:在学习过程中,我们会自然地将更多精力投入到那些我们正在取得进步、但尚未完全掌握的知识点上,而不是反复练习已经熟练掌握或完全无法理解的内容。

LPPO框架将两种互补的技术——前缀引导采样(Prefix-Guided Sampling, PG-Sampling)学习进程加权(Learning-Progress Weighting, LP-Weighting),融入到大模型的强化学习流程中。

背景

在深入LPPO之前,我们有必要先回顾一下其所基于的RLVR框架是如何工作的。

在RLVR的设定中,整个系统可以被看作一个经典的强化学习问题:

  • 智能体(Agent): 大型语言模型(LLM)。
  • 环境(Environment): 推理任务本身,通常由一个问题(Question)来定义。
  • 状态(State): 当前已经生成的部分解题步骤和待解决的问题。
  • 动作(Action): LLM生成下一个token或一小段文本。
  • 奖励(Reward): 这是RLVR的核心。与需要复杂奖励模型(Reward Model)的RLHF不同,RLVR处理的任务具有“可验证”的特性。例如,在数学题中,最终答案可以通过与标准答案对比来判断对错;在代码生成中,可以通过单元测试来验证其功能。因此,奖励函数可以是一个简单的、基于规则的二元信号:如果最终答案正确,奖励为1,否则为0。这种奖励机制客观、稳定且成本低廉。

策略优化算法:有了上述定义,我们就可以使用策略梯度(Policy Gradient)算法来优化LLM这个智能体了。常见的算法有PPO(Proximal Policy Optimization)及其在LLM场景下的变种,如GRPO(Group Relative Policy Optimization)。这些算法的核心目标是调整LLM的参数(即策略 ),使其生成的解题方案(轨迹)能够获得更高的期望奖励。

RLVR的有效性在于,它直接面向最终的成功指标(如解题正确率)进行优化,并且允许模型自由探索不同于初始训练数据的解题路径。只要一条路径能得到正确答案,它就会被正向激励,从而丰富了模型的推理能力。然而,标准的RLVR流程通常平等地对待所有训练样本,这为LPPO的“样本为中心”优化留下了空间。

LPPO框架

LPPO框架的创新之处在于,它认为一个静态的、统一的训练策略对于所有样本而言并非最优。学习是一个动态的过程,模型对不同样本的“掌握程度”在不断变化。因此,训练策略也应该是动态的、个体化的。

这种“样本为中心”的理念借鉴了人类的学习过程:

  1. 对于“卡住”的难题:当模型对于某个问题,无论如何探索都无法得到正确答案时(即通过率始终为0),一直让它“盲目”尝试是低效的。这就像一个学生面对一道奥数题,毫无头绪,反复尝试只会消耗时间和信心。此时,一个来自老师或答案解析的“前缀提示”,比如解题的第一步或关键思路,往往能起到四两拨千斤的作用。LPPO中的前缀引导采样(PG-Sampling) 正是扮演了这个“老师”的角色。

  2. 对于不同学习阶段的题目:一个训练批次中的样本,对模型当前的意义是不同的。

    • 已掌握的题目:模型已经能稳定解决(例如通过率接近100%),再继续投入大量计算资源意义不大。
    • 无法理解的题目:远超模型当前能力,无论如何训练,通过率都没有提升,持续投入可能是徒劳的。
    • 正在取得进步的题目:模型正在逐渐“领悟”,通过率在稳步提升(例如从10%提升到30%)。这部分样本处于模型学习的“最近发展区”,是最高效的学习材料。

    LPPO中的学习进程加权(LP-Weighting) 机制,就是为了动态识别出这些“正在取得进步的题目”,并加大它们在模型参数更新中的影响力,从而加速学习进程。

通过结合这两种策略,LPPO旨在让模型的训练资源始终聚焦于最有效率的学习点上,实现更快、更好的收敛。

方法论深度解析

LPPO框架由PG-Sampling和LP-Weighting两个核心组件构成,它们无缝地集成在标准的RLVR训练流程中。

1. 前缀引导采样 (Prefix-Guided Sampling, PG-Sampling)

PG-Sampling是一种在线数据增强技术,专门用于处理模型难以解决的“挑战性问题”。

机制

  1. 识别挑战性问题:在每个训练周期(epoch)开始时,首先对一批样本进行一轮评估(rollout),计算每个样本的通过率(pass rate)。如果一个样本的通过率低于某个阈值 (在论文的实验中,该阈值被设为0,即只针对完全无法解决的问题),那么它就被标记为“挑战性问题”。

  2. 生成前缀提示:对于一个挑战性问题 ,需要一个预先准备好的专家解题方案 。PG-Sampling会从这个专家方案中截取一段前缀 作为“提示”。这个前缀的长度 不是固定的,而是通过一个随机过程确定:

    其中, 是专家方案的总长度, 是一个从均匀分布 中采样的随机比例。例如,设置 ,意味着提示的长度将在专家方案全长的30%到80%之间随机变化。这种随机性可以防止模型过拟合于特定长度的提示。

  3. 引导模型探索:模型 将问题 和生成的前缀提示 拼接起来作为新的输入,然后继续生成剩余的解题部分

    其中 表示序列拼接。

  4. 计算奖励:将前缀 和模型生成的后缀 组合成一个完整的解题方案,然后通过验证器(verifier)判断其最终答案是否正确,并据此计算奖励。

与监督学习(SFT)的对比

PG-Sampling与完全的监督学习(SFT)或行为克隆(Behavior Cloning)有本质区别。SFT会强制模型学习整个专家方案,这可能会压制模型的探索天性,使其思维固化。而PG-Sampling只提供一个“开头”,鼓励模型在正确的方向上进行自我探索来完成剩余的步骤。这既给予了必要的引导,又保留了强化学习探索未知解法的优势,在监督与探索之间取得了平衡。

2. 学习进程加权 (Learning-Progress Weighting, LP-Weighting)

LP-Weighting是一种动态调整样本权重的策略,其核心是根据模型在每个样本上的“学习进步速度”来决定该样本在梯度更新中的贡献度。

机制

  1. 追踪学习状态:对于每个样本 ,需要追踪其在不同训练周期 的通过率。然而,由于每个周期的评估(rollout)次数有限,原始的通过率 pass_rate_i(t) 可能存在较大噪声。为了获得一个更稳定的学习状态评估,LP-Weighting使用指数移动平均(Exponential Moving Average, EMA) 来平滑通过率序列:

    其中 是平滑因子, 代表了在第 个周期时,模型对样本 的一个更稳定、更长期的掌握程度评估。

  2. 量化学习进程:有了平滑的通过率,就可以定义“学习进程” 为相邻两个周期间平滑通过率的一阶差分:

    这个值的直观含义是:

    • :模型在样本 上正在取得进步。
    • :模型在样本 上的表现出现了退步。
    • :学习陷入停滞(可能已经完全掌握,或完全无法学习)。
  3. 计算动态权重:根据学习进程 ,可以计算出每个样本的动态权重

    这个公式包含三个部分:

    • Sigmoid 激活函数,它将可能取值范围很广的 映射到一个平滑的区间内,通常是 (0, 1)。
    • 是一个敏感度因子,控制权重对学习进程变化的敏感程度。 越大,权重曲线越陡峭,对微小的进步或退步反应越剧烈。
    • 是一个偏置项或基础权重。它的作用是为所有样本提供一个最小的权重下限,即使是那些学习进程为负的样本也能获得一定的训练信号,这有助于防止“灾难性遗忘”。
  4. 应用于优势估计:在强化学习的策略更新阶段,这个动态权重 被用来缩放优势函数估计值 。加权后的优势 计算如下:

    这意味着,那些模型正在取得显著进步的样本,其对应的优势信号将被放大,从而在梯度更新中占据主导地位;而那些学习停滞或退步的样本,其影响力则被相应减弱。最终,这个加权的优势 会被代入到GRPO等策略优化的目标函数中,指导模型参数的更新。

通过这种方式,LP-Weighting自动地将模型的“注意力”引导到最有学习价值的样本上,实现了计算资源的智能分配。

实验设置

为了验证LPPO框架的有效性,研究者们进行了一系列详尽的实验。

  • 基础模型:选用了一个强大的开源数学模型 Qwen2.5-Math-7B 作为RL微调的基础。
  • 训练数据:特意使用了一个小而精的高质量数据集,包含817个来自LIMO研究的较难数学题(这些题目附有专家解法,可用于PG-Sampling)和一部分来自MATH数据集的中等难度问题。这旨在模拟高质量数据稀缺的真实场景。
  • 评估基准:在六个广泛认可的数学推理基准上进行评估,包括AIME24, AIME25, AMC23, MATH-500, Minerva, 和 OlympiadBench。
  • 评估指标:主要使用 pass@1,即模型生成一次答案的正确率。

主要结果

7B模型在六个数学推理基准上的零样本pass@1性能
7B模型在六个数学推理基准上的零样本pass@1性能

从上表中可以清晰地看到LPPO的强大效果:

  1. 显著优于基线:直接在Qwen2.5-Math-7B上应用GRPO作为基线,其平均分数为44.3%。而集成了LP-Weighting和PG-Sampling的LPPO框架,将平均分提升至 48.8% ,获得了 4.5% 的绝对提升。这是一个非常显著的进步。
  2. 组件的互补性

    • 单独使用 LP-Weighting,平均分达到46.8%,相比基线提升了2.5%,证明了动态加权策略本身的有效性。
    • 在LP-Weighting的基础上再加入 PG-Sampling(即完整的LPPO),分数从46.8%进一步提升到48.8%,再次增加了2.0%。这表明两种策略是互补的,而非冗余。PG-Sampling解决了模型从0到1的突破问题,而LP-Weighting则负责在1到N的过程中加速。
  3. 超越同类模型:与其他使用RLVR进行微调的当代7B模型(如Eurus-2, Oat-Zero, GPG-7B等)相比,LPPO在平均性能上取得了领先,并且在AIME24, AIME25, Minerva等多个高难度基准上达到了当前最佳(state-of-the-art)水平。

消融研究

为了更深入地理解两个组件各自的作用,研究者们绘制了模型在训练过程中的性能变化曲线。

LP-Weighting 和 PG-Sampling 的消融研究
LP-Weighting 和 PG-Sampling 的消融研究

上图清晰地揭示了两个组件在不同训练阶段的独特贡献:

  • PG-Sampling:“快速启动” (Fast Start) :在训练的早期阶段(例如前60步),包含PG-Sampling的策略(绿色和紫色曲线)的性能迅速超越了不含PG-Sampling的策略(蓝色和橙色曲线)。这说明,通过为难题提供“提示”,PG-Sampling帮助模型迅速克服了初始的探索障碍,实现了性能的“冷启动”。
  • LP-Weighting:“稳定收尾” (Reliable Finish) :在训练的中后期(约60步之后),LP-Weighting的作用开始显现。包含LP-Weighting的策略(橙色和紫色曲线)的学习曲线变得更加陡峭且平滑。这表明,LP-Weighting通过过滤梯度噪声、并聚焦于有进步的样本,使得模型的学习过程更稳定、高效,最终能够达到一个更高的性能上限。

训练动态分析

GRPO下的训练动态
GRPO下的训练动态

通过分析训练过程中样本状态的变化,可以发现LP-Weighting显著提升了模型的平均奖励,同时有效减少了“表现退步”(degrading)样本的比例。这表明该策略使模型的学习过程更加稳健,能够更好地保持已学到的知识。

对模型探索行为的影响

有/无 PG-Sampling 的 KL 散度
有/无 PG-Sampling 的 KL 散度

KL散度用于衡量当前策略与初始参考策略的差异,可以看作是探索程度的一个指标。实验发现,PG-Sampling会引导策略更快地偏离初始策略。这并不意味着盲目的探索,而是说明通过注入前缀提示,模型被更有效地引导到了一个与初始策略不同、但价值更高(即解题能力更强)的策略空间中。

点评

PG-Sampling的思路和前面介绍的一篇文章很像 MIT:UFT 统一监督微调(SFT)和强化微调(RFT),都是通过提示引导来进行高效探索。LP-Weighting超越了传统的静态难样本挖掘,它关注的不是样本的“静态难度”,而是模型与样本交互的“动态学习进程”。

论文通过消融实验清晰地证明了两个组件是1+1>2的关系。PG-Sampling负责解决模型从0到1的“冷启动”问题,帮助模型攻克难关;LP-Weighting则负责从1到N的“加速跑”问题,提升整体学习效率。

相比标准的RLVR流程,LPPO引入了额外的复杂性。它需要跨 epoch 追踪每个样本的通过率,并计算EMA。同时,它也引入了新的超参数,如EMA的平滑因子 α、LP-Weighting的敏感度 κ 和偏置 b、PG-Sampling的前缀长度范围 [β_min, β_max]。尽管论文中表明模型对部分超参数不敏感,但这无疑增加了调参和复现的难度。


往期文章: