• 论文标题:Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
  • 论文链接:https://arxiv.org/pdf/2602.12036

TL;DR

在基于可验证奖励的强化学习(RLVR)中,随着模型能力的提升,训练集中越来越多的 Prompt 变为“简单样本”(即模型能以 100% 概率解出),导致梯度估计的方差为零,无法提供有效的训练信号。本文介绍的 Composition-RL 提出了一种基于现有数据自动合成新 Prompt 的方法。该方法通过将多个简单的数学或逻辑问题串联组合,构建出更复杂的组合式问题(Compositional Prompts),从而将“简单样本”转化为具有挑战性的训练数据。实验表明,Composition-RL 在 Qwen3 系列模型(4B 至 30B)上显著提升了数学推理及跨域泛化能力,且这种组合带来的性能提升优于单纯的数据混合训练。


1. 背景

1.1 RLVR 的数据困境

随着 OpenAI o1 和 DeepSeek-R1 等模型的出现,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为提升大语言模型(LLM)推理能力的标准范式。RLVR 的核心依赖于大量带有确切答案(Ground Truth)的 Prompt,通过模型生成的答案与标准答案的一致性来计算奖励信号。

在 RLVR 训练过程中(通常采用 PPO 或 GRPO 算法),梯度更新依赖于优势函数(Advantage)的估计。对于一个 Prompt ,如果模型生成的多个回复 的正确率全是 0(Too Hard)或全是 1(Too Easy),则该 Prompt 提供的梯度方差接近于零,无法为策略更新提供有效信息。

现有的研究多集中于如何利用全错(Success Rate = 0)的“困难样本”,例如通过 Advantage Shaping 或 Hint-based Augmentation 来降低难度。然而,随着训练的进行,模型能力不断增强,训练集中会有越来越多的 Prompt 变为“简单样本”(Success Rate = 1)。

1.2 有效数据量的衰减

随着训练步数增加,Solve_all 比例的变化曲线
随着训练步数增加,Solve_all 比例的变化曲线

如上图所示,在 Qwen3-4B-Base 的训练过程中,初始阶段“全对样本”(solve_all)的比例接近 0,但仅经过 50 步训练后,该比例迅速攀升并稳定在 75% 左右。虽然通过动态采样(Dynamic Sampling)可以剔除这些零方差样本,但这实际上导致有效训练数据量大幅缩减(例如 12,000 条数据中仅剩约 3,000 条有效)。

针对这一问题,Composition-RL 的核心动机是:能否利用这些已经变得“简单”的 Prompt,通过某种变换,重新构建出对当前模型具有挑战性的“困难”样本,从而延续 RL 的训练收益?

2. Composition-RL

本文提出了一种名为 Composition-RL 的框架,其核心组件是顺序 Prompt 合成(Sequential Prompt Composition, SPC)算法。该方法利用 LLM 自身的能力,将现有的 个简单问题组合成一个深度为 的复杂问题。

2.1 顺序 Prompt 合成 (SPC)

假设我们有两个具有标准答案的 Prompt:。SPC 的目标是构建一个新的组合 Prompt ,其标准答案为 (通常设为 )。该过程分为三个步骤:

两个数学问题合成的详细流程图
两个数学问题合成的详细流程图

第一步:基于 修改

首先,从 中提取一个数值,记为 。接着,引入一个自然语言定义 ,用以描述这个数值。此时,原始问题 被转化为一个陈述性或定义性的语句

  • 示例

    • 原始 :"使得 的值之和是多少?"
    • 原始 :7。
    • 提取
    • 添加定义 :"设 为使得 成立的 的值之和。"

第二步:修改

中提取一个常数值,并将其替换为新的变量名 ,得到修改后的问题

  • 示例

    • 原始 :"将 化简为 的形式,其中 为正数。"
    • 选取常数 1 作为被替换值,令 (但在 Prompt 中用变量 表示)。
    • 修改后 :"将 化简为 的形式..."

第三步:连接

计算 之间的数值关系,并用自然语言 表述出来。

  • 示例

    • 关系:
    • 约束描述 :"Y 比 X 小 6。"
    • 最终组合 Prompt
    • 最终答案 即为原 (在此例中是 )。

通过这种构造,求解 必须先正确求解 得到中间变量,再结合约束条件推导 的参数,最后解决 。这种非对称的依赖关系使得组合问题的难度显著高于单个子问题。

2.2 扩展至 个 Prompt

上述过程可以递归地推广到 个 Prompt。定义 组合深度(Compositional Depth)

其中 是由后 个问题递归合成得到的。这意味着解决深度为 的问题需要模型具备更长的推理链条(Chain-of-Thought)和更强的上下文维持能力。

2.3 训练目标与动态采样

Composition-RL 使用 GRPO(Group Relative Policy Optimization)作为基础优化算法。目标函数为最大化组合数据的期望可验证奖励:

其中 是通过 SPC 构建的组合数据集。

为了提高训练效率,方法中依然保留了动态采样(Dynamic Sampling)机制。对于每个 Batch:

  1. 从候选集中采样一批 Prompt。
  2. 模型进行 次 Rollout。
  3. 计算每个 Prompt 的平均奖励
  4. 过滤掉 (全错)和 (全对)的样本,只保留 的样本进行梯度更新。

Meta-Experiment 结果显示,经过 SPC 处理后,原本高达 75% 的 solve_all 比例在 OpenMath-Reasoning-1.5B 模型上降至 41.4%,在 JustRL-1.5B 上降至 60.0%。这证明 SPC 有效地“重启”了简单样本的训练价值。

3. 实验设置

为了全面评估 Composition-RL 的有效性,论文在不同参数规模的模型和不同领域的数据集上进行了广泛实验。

3.1 基础设置

  • 模型:Qwen3 系列(4B-Base, 8B-Base, 14B-Base, 30B-A3B-Base)。
  • 训练框架:VeRL (Sheng et al., 2024)。
  • 超参数:Learning Rate ,Batch Size 256,无需 Warm-up。
  • Rollout:Temperature 1.0, 8 samples per prompt, Max Tokens 16K。
  • 验证器:Math-Verify(基于规则的验证器)。
  • 训练集

    • MATH12K:原始 MATH 训练集(约 12k 条)。
    • MATH-Composition-199K:基于 MATH12K 构建的深度为 2 的组合数据集(约 199k 条有效数据)。

3.2 评测基准

  • 域内数学任务(In-Domain)

    • AIME 24 / AIME 25(高难度竞赛题)。
    • Beyond AIME。
    • IMOBench。
  • 域外多任务(Out-Of-Domain)

    • GPQA-Diamond。
    • MMLU-Pro。

所有评测均报告 Pass@1 准确率,部分通过多次采样取平均(如 Avg@32)。

4. 实验

4.1 组合数据的普遍增益

Composition-RL 在不同尺寸模型及基准上的表现
Composition-RL 在不同尺寸模型及基准上的表现

实验结果表明,Composition-RL 在所有模型尺寸和所有基准测试中均优于在原始数据上进行 RL 训练的基线

  1. 整体性能提升

    • Qwen3-4B: 整体平均分提升 +3.3%。
    • Qwen3-14B: 整体平均分提升 +4.3%。
    • Qwen3-30B-A3B: 整体平均分提升 +10.5%。
      这显示出明显的Scaling Law特性:模型参数量越大,从组合数据中获得的收益越高。这可能是因为大模型具备更强的长窗口处理能力和基础推理能力,能够更好地消化长推理链的训练数据。
  2. 高难度任务表现
    在 AIME 24 这一高难度数学竞赛基准上,Composition-RL 带来的提升尤为显著:

    • 4B 模型提升 +7.2%。
    • 8B 模型提升 +10.8%。
    • 30B 模型提升 +21.4%。
      这表明通过组合简单问题,确实能够激发模型解决复杂问题的潜力。
  3. 域外泛化(OOD)
    尽管训练数据仅包含数学题目,但模型在 GPQA(研究生水平问答)和 MMLU-Pro 上的表现也有所提升。例如 30B 模型在 MMLU-Pro 上提升了 +2.0%。这暗示了 RLVR 训练获得的推理能力具有一定的通用性。

4.2 课程学习(Curriculum Learning)的效果

论文进一步探索了从深度 1(原始数据)逐步过渡到深度 2、深度 3 的课程学习策略。

AIME 24 准确率随训练步数变化的曲线,对比 Original、Composition 和 Curriculum
AIME 24 准确率随训练步数变化的曲线,对比 Original、Composition 和 Curriculum
  • 现象:直接在 MATH12K(Depth 1)上训练,性能在一定步数后趋于饱和,这是因为 solve_all 比例过高导致梯度消失。
  • 策略:当 Depth 1 训练饱和后,切换到 Depth 2 数据集继续训练,solve_all 比例骤降,模型性能重新开始增长。随后切换至 Depth 3,性能进一步提升。
  • 数据

    • Depth 1 -> Depth 2:在 AIME 24 上额外获得 +9.7% 的提升。
    • Depth 3:进一步获得 +2.0% 的整体提升。

这一结果验证了通过不断增加组合深度,可以持续挖掘现有数据的潜力,突破模型性能的“天花板”。

4.3 跨领域组合(Cross-Domain Composition)

除了数学内部的组合,论文还尝试了将物理(Physics)题目作为 ,将数学(Math)题目作为 进行跨域组合。

跨领域实验结果对比
跨领域实验结果对比

实验设置了三个对比组:

  1. Mix Training:简单混合数学和物理题目进行训练。
  2. Math-then-Physics:先训数学,再训物理。
  3. Composition-RL:物理与数学的组合题目。

主要发现

  • 组合优于混合:Composition-RL 在所有指标上均显著优于 Mix Training 和 Sequential Training。
  • 双向促进

    • 在数学基准(AIME 24)上,Composition-RL 达到了 32.4%,高于 Mix Training 的 19.7% 和 Math-then-Physics 的 25.3%。
    • 在域外任务(OOD)上,Composition-RL 同样表现最佳。
  • 解释:物理问题通常需要数学工具来解决。将物理场景(提供变量和约束)与数学计算(求解)强制结合,模拟了实际应用中“建模 -> 求解”的完整过程,比单纯学习孤立的知识点更有效。

5. 为什么 Composition-RL 有效?

论文通过定性和定量分析,将 Composition-RL 的成功归因于两个主要因素:组合泛化(Compositional Generalization)隐式过程监督(Implicit Process Supervision)

5.1 组合泛化能力

不同模型在 Depth-2 测试集上的表现
不同模型在 Depth-2 测试集上的表现

作者构建了一组测试数据,对比了模型在 Depth-1(原始)和 Depth-2(组合)测试题上的表现。结果显示,经过 Composition-RL 训练的模型,不仅在标准测试集上表现更好,在 Depth-2 的测试题上优势更大。这说明模型并非单纯记忆了题目,而是学会了如何处理更复杂的逻辑结构,即习得了“将已知技能组合起来解决新问题”的能力。

5.2 隐式过程监督

这是一个非常深刻的观点。在标准的 RLVR 中,通常只有最终答案正确才给奖励(Outcome Reward Matrix, ORM)。对于长链条推理,这通常被称为“稀疏奖励”问题。

但在 Composition-RL 中,题目 的结构决定了:如果第一步 的答案 算错了,那么带入 的参数就是错的,最终答案 几乎不可能正确。

训练过程中  正确率与  恢复率的关系
训练过程中 正确率与 恢复率的关系

实验数据表明,随着模型对组合问题 解决率的提升,模型对中间变量 的计算正确率也在同步提升。
这意味着:

  1. 组合 Prompts 本身充当了一种结构化的验证机制
  2. 为了得到最终奖励,模型被迫在中间步骤(求解 )保持精确。
  3. 这种机制在没有人工标注过程标签(Process Reward Model, PRM)的情况下,实现了类似过程监督的效果。

6. 实现细节与消融实验

6.1 数据的可靠性过滤

自动合成 Prompt 最大的风险在于生成错误的问题或产生逻辑矛盾。论文在附录 D 中详细描述了基于 LLM 的自验证流程:

  1. 验证提取(Verify Extraction):在提取 后,让 LLM 重新根据 计算 ,如果计算结果与提取结果不一致,则丢弃。
  2. 验证修改(Verify Modification):同理,验证 中的变量替换是否保持了原题逻辑。
  3. 验证连接(Verify Connection):检查 连接后是否存在变量名冲突或语意不通顺。

通过这一系列严格的过滤,错误率被控制在 2% 以下,保证了大规模训练数据的质量。

6.2 候选集 的选择

在构建组合数据时,如何选择 的来源?论文比较了不同的采样策略(附录表 3):

  • Variant A 均来自小样本随机子集。
  • Variant B 全集, 小样本子集。
  • Composition-RL (Default) 小样本子集(20个种子题), 全集。

结果显示,默认配置效果最好。分析认为,由于组合问题 的最终答案由 决定,因此 的多样性(覆盖全集)对于保证最终答案分布的广泛性至关重要。而 仅作为条件引入,少量的种子题即可提供足够的上下文扰动。

6.3 验证器(Verifier)的选择

实验主要使用 Math-Verify 这一基于规则的验证器。对于物理题目(MegaScience Physics),由于 LLM 生成的答案可能包含单位、不同格式的科学计数法,规则验证器容易误判。因此,作者采用了“保守过滤”策略:如果 DeepSeek-R1 或其他强模型生成的 8 个回复都被 Math-Verify 判错,说明该题目的格式可能验证器无法识别,直接剔除。最终保留了约 8.2K 条物理题目。

7. 相关工作对比

7.1 与 Hint-based Augmentation 的区别

最近有工作(如 Li et al., 2025a)提出通过给困难问题(Solve_none)增加 Hint 来降低难度,使其变为可学习的样本。
Composition-RL 的思路恰恰相反:它是针对简单问题(Solve_all),通过组合增加难度。
两者在 RL 生命周期中是互补的:

  • 初期:使用 Hint-based 方法启动训练,解决“太难”的问题。
  • 中后期:使用 Composition-RL,解决“太简单”的问题,持续提升上限。

7.2 与 Synthetic Data 的区别

许多工作致力于从零生成合成数据。Composition-RL 的优势在于它重用(Reuse)了经过验证的高质量现有数据。这避免了从零生成时可能引入的幻觉(Hallucination)或事实错误,同时也保证了 Ground Truth 的可靠性。

更多细节请阅读原文。


往期文章: