论文标题：Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
论文链接：https://arxiv.org/pdf/2602.12036

TL;DR

在基于可验证奖励的强化学习（RLVR）中，随着模型能力的提升，训练集中越来越多的 Prompt 变为“简单样本”（即模型能以 100% 概率解出），导致梯度估计的方差为零，无法提供有效的训练信号。本文介绍的 Composition-RL 提出了一种基于现有数据自动合成新 Prompt 的方法。该方法通过将多个简单的数学或逻辑问题串联组合，构建出更复杂的组合式问题（Compositional Prompts），从而将“简单样本”转化为具有挑战性的训练数据。实验表明，Composition-RL 在 Qwen3 系列模型（4B 至 30B）上显著提升了数学推理及跨域泛化能力，且这种组合带来的性能提升优于单纯的数据混合训练。

1. 背景

1.1 RLVR 的数据困境

随着 OpenAI o1 和 DeepSeek-R1 等模型的出现，基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）已成为提升大语言模型（LLM）推理能力的标准范式。RLVR 的核心依赖于大量带有确切答案（Ground Truth）的 Prompt，通过模型生成的答案与标准答案的一致性来计算奖励信号。

在 RLVR 训练过程中（通常采用 PPO 或 GRPO 算法），梯度更新依赖于优势函数（Advantage）的估计。对于一个 Prompt ，如果模型生成的多个回复的正确率全是 0（Too Hard）或全是 1（Too Easy），则该 Prompt 提供的梯度方差接近于零，无法为策略更新提供有效信息。

现有的研究多集中于如何利用全错（Success Rate = 0）的“困难样本”，例如通过 Advantage Shaping 或 Hint-based Augmentation 来降低难度。然而，随着训练的进行，模型能力不断增强，训练集中会有越来越多的 Prompt 变为“简单样本”（Success Rate = 1）。

1.2 有效数据量的衰减

如上图所示，在 Qwen3-4B-Base 的训练过程中，初始阶段“全对样本”（solve_all）的比例接近 0，但仅经过 50 步训练后，该比例迅速攀升并稳定在 75% 左右。虽然通过动态采样（Dynamic Sampling）可以剔除这些零方差样本，但这实际上导致有效训练数据量大幅缩减（例如 12,000 条数据中仅剩约 3,000 条有效）。

针对这一问题，Composition-RL 的核心动机是：能否利用这些已经变得“简单”的 Prompt，通过某种变换，重新构建出对当前模型具有挑战性的“困难”样本，从而延续 RL 的训练收益？

2. Composition-RL

本文提出了一种名为 Composition-RL 的框架，其核心组件是顺序 Prompt 合成（Sequential Prompt Composition, SPC）算法。该方法利用 LLM 自身的能力，将现有的个简单问题组合成一个深度为的复杂问题。

2.1 顺序 Prompt 合成 (SPC)

假设我们有两个具有标准答案的 Prompt：和。SPC 的目标是构建一个新的组合 Prompt ，其标准答案为（通常设为）。该过程分为三个步骤：

第一步：基于修改

首先，从中提取一个数值，记为。接着，引入一个自然语言定义，用以描述这个数值。此时，原始问题被转化为一个陈述性或定义性的语句。

示例：
- 原始："使得的的值之和是多少？"
- 原始：7。
- 提取。
- 添加定义："设为使得成立的的值之和。"

第二步：修改

从中提取一个常数值，并将其替换为新的变量名，得到修改后的问题。

示例：
- 原始："将化简为的形式，其中为正数。"
- 选取常数 1 作为被替换值，令（但在 Prompt 中用变量表示）。
- 修改后："将化简为的形式..."

第三步：连接和

计算和之间的数值关系，并用自然语言表述出来。

示例：
- 。
- 关系：。
- 约束描述："Y 比 X 小 6。"
- 最终组合 Prompt ：。
- 最终答案即为原（在此例中是）。

通过这种构造，求解必须先正确求解得到中间变量，再结合约束条件推导的参数，最后解决。这种非对称的依赖关系使得组合问题的难度显著高于单个子问题。

2.2 扩展至个 Prompt

上述过程可以递归地推广到个 Prompt。定义为组合深度（Compositional Depth）。

其中是由后个问题递归合成得到的。这意味着解决深度为的问题需要模型具备更长的推理链条（Chain-of-Thought）和更强的上下文维持能力。

2.3 训练目标与动态采样

Composition-RL 使用 GRPO（Group Relative Policy Optimization）作为基础优化算法。目标函数为最大化组合数据的期望可验证奖励：

其中是通过 SPC 构建的组合数据集。

为了提高训练效率，方法中依然保留了动态采样（Dynamic Sampling）机制。对于每个 Batch：

从候选集中采样一批 Prompt。
模型进行次 Rollout。
计算每个 Prompt 的平均奖励。
过滤掉（全错）和（全对）的样本，只保留的样本进行梯度更新。

Meta-Experiment 结果显示，经过 SPC 处理后，原本高达 75% 的 solve_all 比例在 OpenMath-Reasoning-1.5B 模型上降至 41.4%，在 JustRL-1.5B 上降至 60.0%。这证明 SPC 有效地“重启”了简单样本的训练价值。

3. 实验设置

为了全面评估 Composition-RL 的有效性，论文在不同参数规模的模型和不同领域的数据集上进行了广泛实验。

3.1 基础设置

模型：Qwen3 系列（4B-Base, 8B-Base, 14B-Base, 30B-A3B-Base）。
训练框架：VeRL (Sheng et al., 2024)。
超参数：Learning Rate ，Batch Size 256，无需 Warm-up。
Rollout：Temperature 1.0, 8 samples per prompt, Max Tokens 16K。
验证器：Math-Verify（基于规则的验证器）。
训练集：
- MATH12K：原始 MATH 训练集（约 12k 条）。
- MATH-Composition-199K：基于 MATH12K 构建的深度为 2 的组合数据集（约 199k 条有效数据）。

3.2 评测基准

域内数学任务（In-Domain）：
- AIME 24 / AIME 25（高难度竞赛题）。
- Beyond AIME。
- IMOBench。
域外多任务（Out-Of-Domain）：
- GPQA-Diamond。
- MMLU-Pro。

所有评测均报告 Pass@1 准确率，部分通过多次采样取平均（如 Avg@32）。

4. 实验

4.1 组合数据的普遍增益

实验结果表明，Composition-RL 在所有模型尺寸和所有基准测试中均优于在原始数据上进行 RL 训练的基线。

整体性能提升：
- Qwen3-4B: 整体平均分提升 +3.3%。
- Qwen3-14B: 整体平均分提升 +4.3%。
- Qwen3-30B-A3B: 整体平均分提升 +10.5%。
  这显示出明显的Scaling Law特性：模型参数量越大，从组合数据中获得的收益越高。这可能是因为大模型具备更强的长窗口处理能力和基础推理能力，能够更好地消化长推理链的训练数据。
高难度任务表现：
在 AIME 24 这一高难度数学竞赛基准上，Composition-RL 带来的提升尤为显著：
- 4B 模型提升 +7.2%。
- 8B 模型提升 +10.8%。
- 30B 模型提升 +21.4%。
  这表明通过组合简单问题，确实能够激发模型解决复杂问题的潜力。
域外泛化（OOD）：
尽管训练数据仅包含数学题目，但模型在 GPQA（研究生水平问答）和 MMLU-Pro 上的表现也有所提升。例如 30B 模型在 MMLU-Pro 上提升了 +2.0%。这暗示了 RLVR 训练获得的推理能力具有一定的通用性。

4.2 课程学习（Curriculum Learning）的效果

论文进一步探索了从深度 1（原始数据）逐步过渡到深度 2、深度 3 的课程学习策略。

AIME 24 准确率随训练步数变化的曲线，对比 Original、Composition 和 Curriculum

现象：直接在 MATH12K（Depth 1）上训练，性能在一定步数后趋于饱和，这是因为 solve_all 比例过高导致梯度消失。
策略：当 Depth 1 训练饱和后，切换到 Depth 2 数据集继续训练，solve_all 比例骤降，模型性能重新开始增长。随后切换至 Depth 3，性能进一步提升。
数据：
- Depth 1 -> Depth 2：在 AIME 24 上额外获得 +9.7% 的提升。
- Depth 3：进一步获得 +2.0% 的整体提升。

这一结果验证了通过不断增加组合深度，可以持续挖掘现有数据的潜力，突破模型性能的“天花板”。

4.3 跨领域组合（Cross-Domain Composition）

除了数学内部的组合，论文还尝试了将物理（Physics）题目作为，将数学（Math）题目作为进行跨域组合。

实验设置了三个对比组：

Mix Training：简单混合数学和物理题目进行训练。
Math-then-Physics：先训数学，再训物理。
Composition-RL：物理与数学的组合题目。

主要发现：

组合优于混合：Composition-RL 在所有指标上均显著优于 Mix Training 和 Sequential Training。
双向促进：
- 在数学基准（AIME 24）上，Composition-RL 达到了 32.4%，高于 Mix Training 的 19.7% 和 Math-then-Physics 的 25.3%。
- 在域外任务（OOD）上，Composition-RL 同样表现最佳。
解释：物理问题通常需要数学工具来解决。将物理场景（提供变量和约束）与数学计算（求解）强制结合，模拟了实际应用中“建模 -> 求解”的完整过程，比单纯学习孤立的知识点更有效。

5. 为什么 Composition-RL 有效？

论文通过定性和定量分析，将 Composition-RL 的成功归因于两个主要因素：组合泛化（Compositional Generalization）和隐式过程监督（Implicit Process Supervision）。

5.1 组合泛化能力

作者构建了一组测试数据，对比了模型在 Depth-1（原始）和 Depth-2（组合）测试题上的表现。结果显示，经过 Composition-RL 训练的模型，不仅在标准测试集上表现更好，在 Depth-2 的测试题上优势更大。这说明模型并非单纯记忆了题目，而是学会了如何处理更复杂的逻辑结构，即习得了“将已知技能组合起来解决新问题”的能力。

5.2 隐式过程监督

这是一个非常深刻的观点。在标准的 RLVR 中，通常只有最终答案正确才给奖励（Outcome Reward Matrix, ORM）。对于长链条推理，这通常被称为“稀疏奖励”问题。

但在 Composition-RL 中，题目的结构决定了：如果第一步的答案算错了，那么带入的参数就是错的，最终答案几乎不可能正确。

实验数据表明，随着模型对组合问题解决率的提升，模型对中间变量的计算正确率也在同步提升。
这意味着：

组合 Prompts 本身充当了一种结构化的验证机制。
为了得到最终奖励，模型被迫在中间步骤（求解）保持精确。
这种机制在没有人工标注过程标签（Process Reward Model, PRM）的情况下，实现了类似过程监督的效果。

6. 实现细节与消融实验

6.1 数据的可靠性过滤

自动合成 Prompt 最大的风险在于生成错误的问题或产生逻辑矛盾。论文在附录 D 中详细描述了基于 LLM 的自验证流程：

验证提取（Verify Extraction）：在提取后，让 LLM 重新根据和计算，如果计算结果与提取结果不一致，则丢弃。
验证修改（Verify Modification）：同理，验证中的变量替换是否保持了原题逻辑。
验证连接（Verify Connection）：检查和连接后是否存在变量名冲突或语意不通顺。

通过这一系列严格的过滤，错误率被控制在 2% 以下，保证了大规模训练数据的质量。

6.2 候选集的选择

在构建组合数据时，如何选择和的来源？论文比较了不同的采样策略（附录表 3）：

Variant A：均来自小样本随机子集。
Variant B：全集，小样本子集。
Composition-RL (Default) ：小样本子集（20个种子题），全集。

结果显示，默认配置效果最好。分析认为，由于组合问题的最终答案由决定，因此的多样性（覆盖全集）对于保证最终答案分布的广泛性至关重要。而仅作为条件引入，少量的种子题即可提供足够的上下文扰动。

6.3 验证器（Verifier）的选择

实验主要使用 Math-Verify 这一基于规则的验证器。对于物理题目（MegaScience Physics），由于 LLM 生成的答案可能包含单位、不同格式的科学计数法，规则验证器容易误判。因此，作者采用了“保守过滤”策略：如果 DeepSeek-R1 或其他强模型生成的 8 个回复都被 Math-Verify 判错，说明该题目的格式可能验证器无法识别，直接剔除。最终保留了约 8.2K 条物理题目。

7. 相关工作对比

7.1 与 Hint-based Augmentation 的区别

最近有工作（如 Li et al., 2025a）提出通过给困难问题（Solve_none）增加 Hint 来降低难度，使其变为可学习的样本。
Composition-RL 的思路恰恰相反：它是针对简单问题（Solve_all），通过组合增加难度。
两者在 RL 生命周期中是互补的：

初期：使用 Hint-based 方法启动训练，解决“太难”的问题。
中后期：使用 Composition-RL，解决“太简单”的问题，持续提升上限。

7.2 与 Synthetic Data 的区别

许多工作致力于从零生成合成数据。Composition-RL 的优势在于它重用（Reuse）了经过验证的高质量现有数据。这避免了从零生成时可能引入的幻觉（Hallucination）或事实错误，同时也保证了 Ground Truth 的可靠性。

更多细节请阅读原文。

往期文章：

腾讯混元提出 Composition-RL：通过合成可验证Prompt提升大模型强化学习效率

TL;DR

1. 背景

1.1 RLVR 的数据困境

1.2 有效数据量的衰减

2. Composition-RL