Qwen提出LPPO框架，通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈

在RLVR的实践中，主流的研究方向长期聚焦于“数据为中心”（Data-Centric）的理念。研究者们投入大量精力进行算法设计（如PPO、GRPO及其变体）、数据筛选与管理、以及奖励机制的精细化设计。这种方法的底层逻辑是，通过提供更多、更高质量的训练数据，或者设计更优的算法来处理这些数据，模型的性能就能得到提升。这一理念在许多场景下确实卓有成效。

然而，随着模型能力的提升和研究的深入，一个现实的瓶颈逐渐显现：高质量的推理数据，特别是那些包含复杂、多步推理过程的专家级解题数据，其获取成本极其高昂且数量稀少。单纯依赖扩大数据规模的策略，正面临着收益递减的困境。此时，一个核心问题摆在了我们面前：我们是否已经充分利用了手中宝贵的每一条数据？当模型在某些难题上反复失败、陷入“学习停滞”时，我们是应该继续投入巨大成本去寻找更多新数据，还是应该反思如何更智能地利用现有数据来帮助模型突破瓶颈？

正是基于这样的思考，来自浙江大学和阿里巴巴通义实验室的研究者们在论文《From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization》中，提出了一种视角的转变：从“数据为中心”转向“样本为中心”（Sample-Centric）。他们认为，不应将所有训练样本一视同仁，而应根据模型在每个独立样本上的学习动态，来动态地、精细化地调整训练策略。

论文标题：From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization
论文链接：https://arxiv.org/pdf/2507.06573

为了实现这一目标，他们提出了一个名为 LPPO（Learning-Progress and Prefix-guided Optimization） 的渐进式优化框架。该框架模仿了人类学习的两个核心特征：

寻求提示：当我们遇到一个百思不得其解的难题时，我们通常不会直接放弃或去看完整答案，而是会寻求一个“提示”（hint），帮助我们打开思路，然后自己完成剩下的部分。
聚焦进步：在学习过程中，我们会自然地将更多精力投入到那些我们正在取得进步、但尚未完全掌握的知识点上，而不是反复练习已经熟练掌握或完全无法理解的内容。

LPPO框架将两种互补的技术——前缀引导采样（Prefix-Guided Sampling, PG-Sampling） 和 学习进程加权（Learning-Progress Weighting, LP-Weighting），融入到大模型的强化学习流程中。

背景

在深入LPPO之前，我们有必要先回顾一下其所基于的RLVR框架是如何工作的。

在RLVR的设定中，整个系统可以被看作一个经典的强化学习问题：

智能体（Agent）: 大型语言模型（LLM）。
环境（Environment）: 推理任务本身，通常由一个问题（Question）来定义。
状态（State）: 当前已经生成的部分解题步骤和待解决的问题。
动作（Action）: LLM生成下一个token或一小段文本。
奖励（Reward）: 这是RLVR的核心。与需要复杂奖励模型（Reward Model）的RLHF不同，RLVR处理的任务具有“可验证”的特性。例如，在数学题中，最终答案可以通过与标准答案对比来判断对错；在代码生成中，可以通过单元测试来验证其功能。因此，奖励函数可以是一个简单的、基于规则的二元信号：如果最终答案正确，奖励为1，否则为0。这种奖励机制客观、稳定且成本低廉。

策略优化算法：有了上述定义，我们就可以使用策略梯度（Policy Gradient）算法来优化LLM这个智能体了。常见的算法有PPO（Proximal Policy Optimization）及其在LLM场景下的变种，如GRPO（Group Relative Policy Optimization）。这些算法的核心目标是调整LLM的参数（即策略），使其生成的解题方案（轨迹）能够获得更高的期望奖励。

RLVR的有效性在于，它直接面向最终的成功指标（如解题正确率）进行优化，并且允许模型自由探索不同于初始训练数据的解题路径。只要一条路径能得到正确答案，它就会被正向激励，从而丰富了模型的推理能力。然而，标准的RLVR流程通常平等地对待所有训练样本，这为LPPO的“样本为中心”优化留下了空间。

LPPO框架

LPPO框架的创新之处在于，它认为一个静态的、统一的训练策略对于所有样本而言并非最优。学习是一个动态的过程，模型对不同样本的“掌握程度”在不断变化。因此，训练策略也应该是动态的、个体化的。

这种“样本为中心”的理念借鉴了人类的学习过程：

对于“卡住”的难题：当模型对于某个问题，无论如何探索都无法得到正确答案时（即通过率始终为0），一直让它“盲目”尝试是低效的。这就像一个学生面对一道奥数题，毫无头绪，反复尝试只会消耗时间和信心。此时，一个来自老师或答案解析的“前缀提示”，比如解题的第一步或关键思路，往往能起到四两拨千斤的作用。LPPO中的前缀引导采样（PG-Sampling） 正是扮演了这个“老师”的角色。
对于不同学习阶段的题目：一个训练批次中的样本，对模型当前的意义是不同的。
- 已掌握的题目：模型已经能稳定解决（例如通过率接近100%），再继续投入大量计算资源意义不大。
- 无法理解的题目：远超模型当前能力，无论如何训练，通过率都没有提升，持续投入可能是徒劳的。
- 正在取得进步的题目：模型正在逐渐“领悟”，通过率在稳步提升（例如从10%提升到30%）。这部分样本处于模型学习的“最近发展区”，是最高效的学习材料。
LPPO中的学习进程加权（LP-Weighting） 机制，就是为了动态识别出这些“正在取得进步的题目”，并加大它们在模型参数更新中的影响力，从而加速学习进程。

通过结合这两种策略，LPPO旨在让模型的训练资源始终聚焦于最有效率的学习点上，实现更快、更好的收敛。

方法论深度解析

LPPO框架由PG-Sampling和LP-Weighting两个核心组件构成，它们无缝地集成在标准的RLVR训练流程中。

1. 前缀引导采样 (Prefix-Guided Sampling, PG-Sampling)

PG-Sampling是一种在线数据增强技术，专门用于处理模型难以解决的“挑战性问题”。

机制：

识别挑战性问题：在每个训练周期（epoch）开始时，首先对一批样本进行一轮评估（rollout），计算每个样本的通过率（pass rate）。如果一个样本的通过率低于某个阈值（在论文的实验中，该阈值被设为0，即只针对完全无法解决的问题），那么它就被标记为“挑战性问题”。
生成前缀提示：对于一个挑战性问题，需要一个预先准备好的专家解题方案。PG-Sampling会从这个专家方案中截取一段前缀作为“提示”。这个前缀的长度不是固定的，而是通过一个随机过程确定：

其中，是专家方案的总长度，是一个从均匀分布中采样的随机比例。例如，设置，意味着提示的长度将在专家方案全长的30%到80%之间随机变化。这种随机性可以防止模型过拟合于特定长度的提示。
引导模型探索：模型将问题和生成的前缀提示拼接起来作为新的输入，然后继续生成剩余的解题部分：

其中表示序列拼接。
计算奖励：将前缀和模型生成的后缀组合成一个完整的解题方案，然后通过验证器（verifier）判断其最终答案是否正确，并据此计算奖励。

与监督学习（SFT）的对比：

PG-Sampling与完全的监督学习（SFT）或行为克隆（Behavior Cloning）有本质区别。SFT会强制模型学习整个专家方案，这可能会压制模型的探索天性，使其思维固化。而PG-Sampling只提供一个“开头”，鼓励模型在正确的方向上进行自我探索来完成剩余的步骤。这既给予了必要的引导，又保留了强化学习探索未知解法的优势，在监督与探索之间取得了平衡。

2. 学习进程加权 (Learning-Progress Weighting, LP-Weighting)

LP-Weighting是一种动态调整样本权重的策略，其核心是根据模型在每个样本上的“学习进步速度”来决定该样本在梯度更新中的贡献度。

机制：

追踪学习状态：对于每个样本，需要追踪其在不同训练周期的通过率。然而，由于每个周期的评估（rollout）次数有限，原始的通过率 pass_rate_i(t) 可能存在较大噪声。为了获得一个更稳定的学习状态评估，LP-Weighting使用指数移动平均（Exponential Moving Average, EMA） 来平滑通过率序列：

其中是平滑因子，代表了在第个周期时，模型对样本的一个更稳定、更长期的掌握程度评估。
量化学习进程：有了平滑的通过率，就可以定义“学习进程” 为相邻两个周期间平滑通过率的一阶差分：

这个值的直观含义是：
- ：模型在样本上正在取得进步。
- ：模型在样本上的表现出现了退步。
- ：学习陷入停滞（可能已经完全掌握，或完全无法学习）。
计算动态权重：根据学习进程，可以计算出每个样本的动态权重：

这个公式包含三个部分：
- 是 Sigmoid 激活函数，它将可能取值范围很广的映射到一个平滑的区间内，通常是 (0, 1)。
- 是一个敏感度因子，控制权重对学习进程变化的敏感程度。越大，权重曲线越陡峭，对微小的进步或退步反应越剧烈。
- 是一个偏置项或基础权重。它的作用是为所有样本提供一个最小的权重下限，即使是那些学习进程为负的样本也能获得一定的训练信号，这有助于防止“灾难性遗忘”。
应用于优势估计：在强化学习的策略更新阶段，这个动态权重被用来缩放优势函数估计值。加权后的优势计算如下：

这意味着，那些模型正在取得显著进步的样本，其对应的优势信号将被放大，从而在梯度更新中占据主导地位；而那些学习停滞或退步的样本，其影响力则被相应减弱。最终，这个加权的优势会被代入到GRPO等策略优化的目标函数中，指导模型参数的更新。

通过这种方式，LP-Weighting自动地将模型的“注意力”引导到最有学习价值的样本上，实现了计算资源的智能分配。

实验设置

为了验证LPPO框架的有效性，研究者们进行了一系列详尽的实验。

基础模型：选用了一个强大的开源数学模型 Qwen2.5-Math-7B 作为RL微调的基础。
训练数据：特意使用了一个小而精的高质量数据集，包含817个来自LIMO研究的较难数学题（这些题目附有专家解法，可用于PG-Sampling）和一部分来自MATH数据集的中等难度问题。这旨在模拟高质量数据稀缺的真实场景。
评估基准：在六个广泛认可的数学推理基准上进行评估，包括AIME24, AIME25, AMC23, MATH-500, Minerva, 和 OlympiadBench。
评估指标：主要使用 pass@1，即模型生成一次答案的正确率。

主要结果

从上表中可以清晰地看到LPPO的强大效果：

显著优于基线：直接在Qwen2.5-Math-7B上应用GRPO作为基线，其平均分数为44.3%。而集成了LP-Weighting和PG-Sampling的LPPO框架，将平均分提升至 48.8% ，获得了 4.5% 的绝对提升。这是一个非常显著的进步。
组件的互补性：
- 单独使用 LP-Weighting，平均分达到46.8%，相比基线提升了2.5%，证明了动态加权策略本身的有效性。
- 在LP-Weighting的基础上再加入 PG-Sampling（即完整的LPPO），分数从46.8%进一步提升到48.8%，再次增加了2.0%。这表明两种策略是互补的，而非冗余。PG-Sampling解决了模型从0到1的突破问题，而LP-Weighting则负责在1到N的过程中加速。
超越同类模型：与其他使用RLVR进行微调的当代7B模型（如Eurus-2, Oat-Zero, GPG-7B等）相比，LPPO在平均性能上取得了领先，并且在AIME24, AIME25, Minerva等多个高难度基准上达到了当前最佳（state-of-the-art）水平。

消融研究

为了更深入地理解两个组件各自的作用，研究者们绘制了模型在训练过程中的性能变化曲线。

上图清晰地揭示了两个组件在不同训练阶段的独特贡献：

PG-Sampling：“快速启动” (Fast Start) ：在训练的早期阶段（例如前60步），包含PG-Sampling的策略（绿色和紫色曲线）的性能迅速超越了不含PG-Sampling的策略（蓝色和橙色曲线）。这说明，通过为难题提供“提示”，PG-Sampling帮助模型迅速克服了初始的探索障碍，实现了性能的“冷启动”。
LP-Weighting：“稳定收尾” (Reliable Finish) ：在训练的中后期（约60步之后），LP-Weighting的作用开始显现。包含LP-Weighting的策略（橙色和紫色曲线）的学习曲线变得更加陡峭且平滑。这表明，LP-Weighting通过过滤梯度噪声、并聚焦于有进步的样本，使得模型的学习过程更稳定、高效，最终能够达到一个更高的性能上限。

训练动态分析：

通过分析训练过程中样本状态的变化，可以发现LP-Weighting显著提升了模型的平均奖励，同时有效减少了“表现退步”（degrading）样本的比例。这表明该策略使模型的学习过程更加稳健，能够更好地保持已学到的知识。

对模型探索行为的影响：

KL散度用于衡量当前策略与初始参考策略的差异，可以看作是探索程度的一个指标。实验发现，PG-Sampling会引导策略更快地偏离初始策略。这并不意味着盲目的探索，而是说明通过注入前缀提示，模型被更有效地引导到了一个与初始策略不同、但价值更高（即解题能力更强）的策略空间中。

点评

PG-Sampling的思路和前面介绍的一篇文章很像 MIT：UFT 统一监督微调（SFT）和强化微调（RFT），都是通过提示引导来进行高效探索。LP-Weighting超越了传统的静态难样本挖掘，它关注的不是样本的“静态难度”，而是模型与样本交互的“动态学习进程”。

论文通过消融实验清晰地证明了两个组件是1+1>2的关系。PG-Sampling负责解决模型从0到1的“冷启动”问题，帮助模型攻克难关；LP-Weighting则负责从1到N的“加速跑”问题，提升整体学习效率。

相比标准的RLVR流程，LPPO引入了额外的复杂性。它需要跨 epoch 追踪每个样本的通过率，并计算EMA。同时，它也引入了新的超参数，如EMA的平滑因子 α、LP-Weighting的敏感度 κ 和偏置 b、PG-Sampling的前缀长度范围 [β_min, β_max]。尽管论文中表明模型对部分超参数不敏感，但这无疑增加了调参和复现的难度。

往期文章：

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31