让每一项优秀工作,被更多人看见:点击进入投稿通道


  • 论文标题:The Art of Efficient Reasoning: Data, Reward, and Optimization
  • 论文链接:https://arxiv.org/pdf/2602.20945

TL;DR

今天解读一篇来自腾讯混元的论文《The Art of Efficient Reasoning: Data, Reward, and Optimization》。该研究系统性地探讨了如何通过强化学习(Reinforcement Learning, RL)和奖励塑形(Reward Shaping)机制,引导大语言模型(Large Language Models, LLMs)在保持甚至提升推理准确率的前提下,生成简短且高效的思维链(Chain-of-Thought, CoT)轨迹。

核心 Takeaways:

  • 训练动态遵循两阶段范式:强化学习引导的高效推理并非线性过程,而是明确分为“长度适应(Length Adaptation)”与“推理微调(Reasoning Refinement)”两个阶段。模型首先迅速压缩输出长度以满足奖励设定的硬性约束,随后才在稳定的长度范围内优化其解题性能。
  • 多重预算与细粒度评估:避免在单一词元(token)限制下评估效率优化模型。建议在 2k 到 32k 的宽泛区间内测试,并结合“以正确性为条件的长度分布”进行监测,以识别模型是否在长预算下出现了“推理崩溃(Reasoning Collapse)”。
  • 数据构建(Easy + Large N):在相对容易的提示词(prompts)上进行训练能够提供密集的正向奖励信号,这是防止模型向错误方向(如只输出毫无逻辑的短文本)过拟合的基础。在算力允许的情况下,增加单题的轨迹采样数量()能有效降低策略方差,促使模型输出稳定。
  • 奖励函数与负样本处理:设计奖励函数时需警惕“短即正确”的因果谬误陷阱。直接对“虽然正确但长度超标”的思维轨迹施加负奖励,易导致模型放弃逻辑推理;相比之下,对这部分轨迹采取掩码(masking)策略,或直接设定较短的采样阈值,能在压缩长度与维持性能之间取得相对良好的权衡。
  • 优化算法与训练稳定性:在引入离策略(Off-policy)优化时,数据的陈旧度(staleness)虽然能加速第一阶段的长度收敛,但在中后期易引发策略熵反弹和不稳定。对于参数量较大(如 30B 级别)的模型,采用纯在线策略(On-policy)是稳健的选择。
  • 跨域与跨规模的泛化性:模型在纯数学领域学到的“剔除过渡句、直接组织形式化逻辑”的长度压缩偏好,能够泛化至代码生成(如 LiveCodeBench)等其他领域,并在 0.6B 到 30B 的多尺度模型上得到验证。

1. 背景

大语言模型(LLMs)在自然语言处理,特别是复杂推理任务中表现出了显著的能力。这些能力的提升部分归功于在推理阶段(inference time)使用扩展的思维链(Chain-of-Thought, CoT)过程。通过生成大量的中间思考步骤,模型能够在给出最终答案前进行详细的逻辑推导。

然而,长形式的思维链推理也引入了显著的代价。在实际部署中,生成大量的推理词元会导致较高的延迟(latency)和庞大的计算开销。如何在保持模型推理准确性的同时,缩减其在推理阶段的计算消耗,成为了当前大模型对齐与优化方向的重要课题。

为了缓解这一矛盾,业界提出了“高效推理(Efficient Reasoning)”的概念。其核心理念是激励模型生成简短且准确的思维轨迹。现有的主流方法通常依赖于强化学习(RL)并辅以奖励塑形(Reward Shaping)机制,即根据生成的轨迹长度和最终答案的正确性来分配奖励。基本原则是:在同样给出正确答案的前提下,较短的思维链应当比冗长的思维链获得更高的奖励。

尽管先前的研究在奖励函数设计上取得了一定进展,但大多聚焦于孤立的奖励机制测试,忽略了更广泛的训练配方(training recipe)的影响。模型的优化过程不仅取决于奖励函数的形式,还受到数据构成(提示词的难度分布)、采样策略(轨迹生成数量)以及底层优化算法(如在线策略与离策略的平衡)的深度制约。本文旨在建立一个统一的实验协议,系统地解构上述各个维度对高效推理机制的影响,从而为大模型研究者提供具备可操作性的实践指南。

2. 预备知识与强化学习实验设置

在探讨具体发现之前,有必要详细梳理本文所依赖的强化学习框架、数据集选择以及核心评估协议。

2.1 强化学习与思维链轨迹生成

强化学习已被证明是提升大语言模型推理能力的有效途径。给定来自数据集 的输入提示词 ,大语言模型策略 会生成一组数量为 的推理轨迹(rollouts),记为 。强化学习的目标是利用从这些轨迹中提取的奖励信号,通过策略梯度(policy gradient)方法来更新模型参数

由于推理任务对数据质量的依赖度较高,研究中选用了业内广泛认可的 DeepScaleR 数据集作为训练提示词来源。这些提示词主要涵盖数学问题,具备明确的最终答案,便于通过结果监督(outcome-supervised)的方式自动进行正确性判定。

2.2 基础训练配置与组相对策略优化 (GRPO)

实验采用了 DeepSeek-R1-Distill-Qwen-1.5B 作为基础消融实验的主干模型。强化学习算法选用了组相对策略优化(Group Relative Policy Optimization, GRPO)。与传统的近端策略优化(PPO)不同,GRPO 摒弃了额外的价值模型(Value Model),而是通过对同一提示词下生成的 个轨迹的奖励进行组内标准化(group normalization)来计算优势函数(Advantage)。这一设计有效降低了训练过程的显存占用和计算复杂度。

在具体的超参数设定上,学习率设为 ,裁剪比例(clip-high ratio)设定为 。在轨迹生成(rollout)阶段,批处理大小(batch size)设为 。对于每个提示词,系统采样 条轨迹(在部分消融实验中会扩展至更高等)。轨迹的最大生成长度限制为 词元,而优化的目标长度设定为 词元。

2.3 奖励工程 (Reward Engineering) 的基础表达

在标准的结果监督强化学习(Outcome-supervised RL)中,奖励函数通常仅关注最终结果的正确性。定义指示函数 ,当条件成立时返回 1,否则返回 0。原始的奖励函数(Vanilla Reward)定义如下:

为了实现高效推理,需要引入奖励塑形。研究中引入了“截断(Truncation)”策略作为基础基线。该策略在要求结果正确的同时,强制轨迹的词元长度 必须小于等于设定的目标长度

除了截断策略,研究还对比了其他文献中提出的奖励函数变体,包括 Kimi-1.5 的策略和 Laser 策略,这些变体的数学定义在后文有详细展开。

3. 核心发现:两阶段训练范式

通过对多组训练动态的长期监控,研究揭示出高效推理的强化学习训练过程并非单调的线性演进,而是严格遵循一个两阶段的演化范式。这一范式反映了模型在满足硬性长度约束与最大化推理准确率之间的动态博弈。

3.1 第一阶段:长度适应

在训练的初始阶段,优化过程被约束满足(constraint satisfaction)所主导。在长度惩罚(或长度截断奖励)的驱动下,模型会迅速调整其输出分布,以避免因超出目标长度而获得零奖励。

观察训练动态曲线可以发现,平均词元消耗量在这一阶段经历了断崖式的下降,呈现出指数衰减的模式。例如,模型的平均生成长度从初始的约 6k 词元迅速下降并收敛至约 2k 词元。同时,策略熵(Policy Entropy)出现显著下降,这表明模型正在向一个更受限的子空间收敛,即那些符合长度约束且逻辑上看似有效的轨迹集合。在此阶段,由于模型过于关注长度压缩,部分复杂推理步骤可能被省略,导致下游评测指标出现一定程度的波动。

3.2 第二阶段:推理微调

当生成的轨迹长度稳定在目标预算(如 )以内后,训练进入了关于长度的平稳期。此时,优化目标的重心发生了转移,模型开始在固定的长度范围内集中提升解题性能。

数据表明,在这一阶段,长度曲线呈现水平状的平台期(plateau),而反映推理能力的指标(如 Mean@8)则开始持续上升或从早期的下降中恢复。值得注意的是,随着模型在限制长度内寻找更优的推理表达,策略熵也随之缓慢回升。这种探索行为表明,模型正在学习如何增加单个词元的信息密度(information density),从而在不违反长度预算的前提下提高逻辑推导的准确性。

4. 细粒度评估指标与预算感知分析

传统的大模型推理评估通常在单一且宽松的词元限制下计算准确率。然而,本文指出,在涉及长度优化的研究中,单一预算的评估会掩盖模型行为的复杂性,因此引入了更为细粒度的评估协议。

4.1 以正确性为条件的长度分布

为了更清晰地可视化模型如何在冗长和精确之间进行权衡,研究监测了基于答案正确性的长度分布。通过区分正确轨迹和错误轨迹的平均长度,可以观察到不同的奖励塑形方法如何引导模型改变其输出倾向。例如,如果惩罚机制设计不当,模型可能会倾向于生成极短但错误的答案,或者仅在输出错误答案时进行无意义的探索。

4.2 预算感知的基准测试

研究主张在广泛的推理词元预算区间下评估模型表现,设定的预算梯度为 。这种多重预算评估揭示了一个关键现象:模型行为对词元约束高度敏感,且在不同预算下可能表现出完全相反的趋势。

在严格的预算下(如 2k 词元),模型的表现主要受限于其长度适应能力。采用激进长度惩罚的策略(如 Kimi 奖励变体)能够在这一区间表现较好,因为它们强迫模型适应狭窄的上下文窗口。然而,当预算放宽至 32k 词元时,这类激进策略却暴露出“推理崩溃(Reasoning Collapse)”的问题,模型因为过度拟合短文本,丧失了进行长链条复杂思考的能力。

相反,采用不那么极端的奖励变体(如 Laser)在 32k 预算下展现出 U 型表现轨迹:初期性能因长度压缩而下降,但在后续的推理微调阶段逐步恢复。这种能力解耦现象凸显了一个核心的权衡关系:过度优化推理效率可能会严重损害模型推理能力的上限。因此,在评估长度压缩模型时,必须结合宽泛的词元预算,以验证模型是否仍保留了按需进行深度思考的潜力。

5. 数据构建与采样维度的深层机理

本节进一步解构训练配方中的数据层面,重点探讨提示词难度和采样轨迹数量如何决定奖励信号的密度,进而影响优化的稳定性。

5.1 提示词难度对奖励密度的影响

训练数据中提示词的难度在决定正向奖励信号密度方面起着关键作用。为了进行对比,研究基于 轨迹的初始通过率(pass rate),将 DeepScaleR 提示词划分为两组子集:DeepScaleR-Easy(通过率 )和 DeepScaleR-Hard(通过率 )。

实验动态呈现出显著的差异。如果仅在 Hard 提示词上进行训练,模型会面临灾难性的失败。策略熵会急剧飙升,生成的轨迹长度过早崩溃。下游的评测指标(如 AMC 和 Olympiad Bench 上的 Mean@8)会大幅下降。

研究将这种失败归因于正向样本的稀疏性(sparsity of positive samples)。当模型难以生成正确的答案时,多数生成的轨迹都是错误的。由于错误轨迹被截断或受惩罚,强化学习的梯度信号会被对错误轨迹的长度惩罚所主导。在 GRPO 框架下,组内相对优势的计算会使得偶尔出现的一个短且正确的样本获得不成比例的极高优势值,从而使得模型迅速向极短输出的方向过拟合,导致推理能力的崩溃。

相对而言,在 Easy 提示词上进行训练则产生了最为稳定的演化轨迹。在此配置下,策略熵保持在较低且稳定的水平,表明模型持续接收到稳定一致的正向强化信号。轨迹长度平缓地适应到目标预算之内。更为核心的一点是,尽管模型仅在简单的提示词上进行效率训练,但它在处理相对复杂的测试集(如 AIME'25)时,所展现出的表现与在全量数据集上训练的模型相当(甚至略高)。这表明,通过简单提示词学习到的“短而精”的推理偏好,能够有效泛化到更难的问题中。

5.2 采样轨迹数量 的缩放效应

在强化学习中,单条提示词下生成的探索轨迹数量 直接决定了状态空间的采样充分度。在限定提示词集为 DeepScaleR-Easy、最大生成长度 以及目标长度 的条件下,研究对比了 时的表现。

扩大 的规模带来了明显的加速和稳定效应。较大的 值使得模型在每一批次中更容易撞见既短又正确的优质轨迹。这种充足的优质样本促进了第一阶段(长度适应)的加速衰减,所有配置最终均收敛至相近的长度下限。

同时,更大的 使得第二阶段(推理微调)变得更加稳健。在多数数学基准测试中,采用较大 值的模型能够更快地恢复推理能力,并达到更高的 Mean@8 渐近线。

然而,这种基于 的收益也表现出任务依赖性(task-dependent)。在涉及代码生成的 LiveCodeBench 测试中, 之间的性能差距变得边缘化。这暗示代码生成任务具有不同的解空间结构,复杂代码逻辑的综合可能需要更为独特的探索策略,而非简单地增加单步采样的轨迹数量。

5.2.1 Pass@k 与 Mean@k 的指标分离

在增加 的实验中,还观察到一个值得关注的统计现象:虽然 Mean@8(平均正确率期望)随着 的增加而显著提升,但 Pass@8(在 8 次独立尝试中至少正确一次的概率)往往停滞不前或仅有微小改善。

Pass@k 衡量的是模型生成正确解的能力上限,如果该指标不随 提升,说明在训练阶段扩大采样规模并未让模型掌握原本无法解决的新知识或新题型。相对地,Mean@k 衡量的是期望正确性。Mean@k 的上升表明扩大 能够有效降低策略在可解问题上的方差。换言之,增加采样数量在高效推理训练中更多是扮演了“方差稳定器”的角色,使得模型在已知能力边界内输出得更稳、更短,但其代价则是成倍增加的训练计算量。

6. 奖励函数设计机制的细致解构

如何妥善处理负样本(Negative Rollouts)是强化学习训练中的核心技术点。在标准的截断策略(Vanilla)中,无论是答错的轨迹(incorrect),还是虽然答对但长度超标的轨迹(overlong correct),都被一律视作负样本(即给予 0 奖励或较低的惩罚)。

针对此问题,另一种思路是进行掩码(masking)。即对于某些类型的非理想轨迹,不直接给予 0 奖励,而是从优势计算中移除它们,使其不产生梯度更新信号。研究对具体的掩码子集进行了控制变量研究。

6.1 失败模式的归类分析

通过对比不同的掩码策略,研究发现在将奖励与长度绑定时,不恰当的策略会导致预期外的严重后果。这些失败模式可归结为以下三类:

第一类:陷入“短即正确”的因果谬误 (-I 策略与 -L&C-S&I 策略)

当策略选择掩码所有错误轨迹(-I 策略),即不对错误答案进行惩罚时,训练信号池中仅剩下两类样本:a) 短且正确的轨迹(正向奖励);b) 冗长且正确的轨迹(负向奖励)。在这种构造下,长度的短变成了获得高奖励的唯一区分特征。模型会迅速捕捉到这个捷径,从而抛弃逻辑推理本身。实验中表现为:训练进行数百步后,策略熵发生爆炸式反弹,生成长度断崖式暴跌,模型完全为了迎合长度指标而输出不知所云的短文本,造成能力崩溃。

第二类:对冗长输出的防御性黑客行为 (-L&C-L&I 策略)

这是一种特殊现象。在此策略中,所有超过目标长度的轨迹(无论正确与否)均被掩码。这意味着模型仅在生成的短轨迹(短正确或短错误)上进行参数更新。在进入推理微调阶段后,模型开始进行“黑客(hack)”行为:它学会了刻意生成超过约束长度的输出。因为系统对超长轨迹进行了掩码,超长轨迹不会带来任何惩罚,模型以此来逃避在短长度下难以输出正确答案的困难。这导致生成的超长文本几乎全是错误的,但模型本身的整体策略并未像第一类那样完全崩溃。

第三类:不惩罚冗长正确轨迹带来的权衡 (-L&C 策略)

如果对虽然冗长但正确的轨迹进行掩码(而非施加惩罚),系统仅惩罚短错误和长错误,奖励短正确。在这种设定下,下游基准测试中模型依然能够生成相对较长的输出,并且能够超越基础基线。这说明,适度放宽对冗长正确思考的惩罚,可以为模型保留更多的思考空间,从而在长度控制与准确率之间实现不同的权衡。

6.2 基准采样长度的设定建议

除了复杂的掩码策略,直接在目标长度下采样(即设定最大探索长度 )提供了一个简单且具备竞争力的基线。在这种设定下,产生的正向样本特征与原始设定( 并在 处截断)基本相同。但由于最大采样长度被限制在 4k,负样本的平均长度也大大缩短(例如 4k 相比 6k)。由于正向样本通常比负向样本更短,这隐式地向模型传达了“在短文本域内寻找正确答案”的信号,从而在不落入显式长度陷阱的前提下达到了较好的帕累托前沿(Pareto frontier)。

7. 优化算法层面的探讨:离策略与陈旧度

在强化学习流程中,轨迹采样(Rollout)通常是时间开销最大的环节。为了加速训练,业内引入了离策略(Off-policy)优化技术。即复用前几个周期的历史轨迹数据进行参数更新,但这引入了数据陈旧度(Staleness)。研究在固定 的稳健设定下,考察了陈旧度参数 对训练动态的影响。

7.1 阶段演化的加速

实验结果显示,陈旧度的引入显著缩短了第一阶段(长度适应)的时间。随着陈旧度 的增加,词元长度的衰减速度明显加快,使得模型能够在更早的训练步数内满足长度预算约束。由于更早进入第二阶段(推理微调),模型拥有了更多的迭代周期来优化解题能力。因此,在高陈旧度(如 )下训练出的模型,在下游评估中相比纯在线策略(On-policy)模型取得了更高的准确率。

7.2 潜在的稳定性风险

尽管先前的文献指出过度的离策略更新可能导致灾难性的模型崩溃,但本文在采用“简单提示词 + 大量采样(Easy + Large N)”的高奖励密度配置下,成功维持了较高的性能。然而,高陈旧度依然暴露出不稳定的特征:

  1. 熵爆炸现象(Entropy Explosion):在纯在线策略下,策略熵在训练全程保持与初始状态接近。而在高陈旧度设定下,训练中期(约 400 步之后)策略熵出现了急剧的飙升。
  2. 长度反弹(Length Rebound):在高陈旧度优化的后期,训练提示词上正向轨迹的长度出现了向上漂移的趋势。这反映出策略网络在平衡执行效率与解题有效性方面遇到了困难,旧策略生成的数据逐渐偏离了当前网络的最优解空间。

综合而言,适当的陈旧度可以加速收敛并提升最终性能,但考虑到上述风险,研究者在资源允许的情况下,特别是在优化参数量更大、更容易产生脆弱性的大模型时,仍推荐使用在线策略(On-policy)。

8. 跨规模模型与跨领域的广泛验证

为了验证所提取规律的普适性,研究将其应用于包含不同参数规模的 Qwen3 模型家族中,并进行了跨领域的评估。

8.1 在 Qwen3 家族上的参数缩放

实验覆盖了参数量从 0.6B 到 30B 的多款 Qwen3 模型,包括基础指导版本(Instruct)和思考优化版本(Thinking)。在具体的实验设定上,严格根据基线能力对齐了生成上限和目标长度。对于 Qwen3-0.6B,设定 ;对于 Qwen3-4B-Instruct,设定 以激励比原生分布更短的输出;对于 30B 级别模型,则设定了 结合更高的批处理规模进行训练。考虑到稳定因素,该部分实验未采用离策略方法。

结果表明,该训练配方在不同模型规模上均具备鲁棒性。以 Qwen3-0.6B 为例,经过 640 步优化后,其在 AIME'25 测试集上的 Mean@8 指标从 13.33 提升至 24.58,同时平均响应长度从 14.9k 大幅压缩至 8.9k。对于规模较大的 Qwen3-30B-A3B-Thinking-2507 模型,在经过仅仅 120 步优化后,Mean@8 从 84.17 提升至 86.25,平均长度从 17.3k 压缩至 14.8k。整体而言,长度压缩比例介于 15% 到 47.3% 之间,并在保证准确率的同时,实现了整体性能-开销曲线的优化。

8.2 领域间的知识迁移能力

本文的训练提示词主要由纯数学领域的题目(DeepScaleR)构成,但学到的长度压缩偏好展现出了良好的跨域泛化能力。在代码生成评测集 LiveCodeBench (LCB) 上,模型的训练动态和最终行为模式与数学基准测试高度相似。这表明,“剔除冗余步骤、直接组织逻辑核心”的思维方式,并非依赖于特定数学知识的记忆,而是一种可在一定程度上跨越逻辑域的结构化生成范式。进一步在包含 10 个不同领域的私有分布外(Out-of-Distribution)测试集中,微调后的 Qwen3-30B 模型同样稳定地降低了约 15% 的词元消耗量,并且在所有 10 个领域的 Mean@4 与 Pass@4 指标上未出现明显衰减。

9. 案例定性分析:推理文体的演变

通过对模型生成的原始文本进行定性检查,研究清晰地展示了高效推理策略不仅是在宏观指标上缩短了长度,更在微观层面重塑了语言模型的内部推理文体。

9.1 简单提示词 vs 困难提示词的生成差异

当使用截断策略训练 DeepScaleR-Hard 时,由于发生推理崩溃,模型生成的内容表现为对必要逻辑验证环节的省略。例如,在求解圆锥体积的案例中,正常模型在得出初步结果后,通常会触发一段内部检验(double check)的逻辑。然而,在困难提示词上过拟合了长度惩罚的模型,会直接略过这一重新代入计算的二次确认步骤,导致其虽然输出了更短的文本,但输出错误答案的风险成倍增加。

9.2 基础模型 vs 高效推理优化模型的对比

比较未经长度优化的基础模型与按本文准则(采用 Easy 提示词、)优化后的模型,两者的文本组织结构呈现出本质差异。

基础模型的输出常常带有大量典型的“对话式冗余(conversational redundancy)”。例如,在解题起始阶段,模型会生成诸如 "Hmm", "Let me think", "Okay, so I need to find..." 等语气填充词,并在推导过程中不厌其烦地用自然语言反复重申题目中的已知条件。其算术分解过程也极为繁琐,例如将乘以 6.5 的过程拆解为文字描述的多个子步骤。

相比之下,经过高效推理优化的模型发生了一场基础性的文风转变。它几乎完全剔除了口语化的无意义过渡句,直接采用高密度的、形式化数学架构进行表达。它的推理轨迹从一种犹豫不决的拟人化叙述,转变为精确的符号化推导。例如,开篇即直接引入公式 ,并将后续计算流程用紧凑的数值代入方式呈现。这一案例有力地证明,文中所提供的优化策略不仅仅是在生硬地截断输出,而是在主动重塑模型结构化知识的调用方式,使其更接近人类专家的书写逻辑。

10. 探讨与未来研究方向

本研究系统地揭示了高效推理的训练机制,但同时也指出了目前工作存在的若干局限,为将来的研究提供了指引。

10.1 奖励函数的理论扩展 (Appendix 相关)

在本文的附录中,研究对 Kimi 和 Laser 提出的奖励函数进行了公式化的复现对比。

Kimi-1.5 的策略引入了一个归一化的长度项:

其中 分别代表同一组生成轨迹中的最大与最小长度。其完整的奖励函数包含对正确的奖励及对错误的惩罚,并依据相对长度进行调节。这种归一化策略在严格约束(如 2k)下表现出色,但在放宽限制时更容易导致前文所述的崩溃现象。

Laser 框架则更倾向于采用基础正确性加上长度条件下的额外探索奖励。其基础变体形式为:

Laser 提供了一个在长文本探索下较为稳健的基础机制,本文提取的许多有益配置原则也是在吸收这些先行工作思想基础上的提炼。

10.2 自适应长度约束的潜力与挑战

本文主干实验均采用了固定的轨迹最大长度 和固定的目标约束长度 。一种直观的改进方向是针对不同复杂度的提示词,设定自适应的目标长度。在附录 G 中,研究尝试将 设定为当前提示词下所有正确轨迹长度分布的第 90 百分位数(90th quantile)。这一尝试虽然在短预算(4k)内产生了更短的答案并提升了表现,但其内在机理实际上是引入了更为严厉的负向信号(因为有固定比例的正确答案必然会被视为超出长度而受罚)。这导致在面对宽松预算(32k)时,模型表现不仅没有提升,甚至出现衰退。同时,自适应长度在优化过程中引起了 KL 散度曲线的剧烈波动,暗示了严重的梯度不稳定问题。因此,如何安全、平滑地引入自适应动态长度,仍是一个悬而未决的问题。

10.3 领域多样性与监督粒度的未来探讨

本文的训练集虽然使得模型在代码等跨域测试上表现良好,但并未直接引入创意写作、开放域问答等更多样化的领域。未来可以探讨在多元化混合数据上进行联合奖励塑形,是否能培养出一个具备通用高效思维引擎的基础大模型。

此外,本文的研究范式完全立足于对最终输出结果的奖励(Outcome-supervised RL)。指导模型进行短而准的思考,本质上是在要求模型丢弃“计算草稿”。就如同人类简化思考过程时会借助外部工具(计算器、备忘录)一样,未来是否有必要引入更细粒度的过程监督(Process-supervised),使得模型能够在更微观的层面上评估每个推理步骤的信息增益,将是推动大模型效率优化的另一个核心路径。

11. 总结

本文从数据构成、奖励设计、采样规模以及优化算法四个维度,全面解构了利用强化学习进行大语言模型高效推理优化的内在机制。研究强调,必须放弃仅在单一词元约束下观察模型的片面做法,转而采用以正确性为条件的分布监测和跨预算性能曲线评估。

可以概括为:在资源允许的条件下,应利用具备高通过率的简单数据集,辅以较高的轨迹采样数量进行训练;在奖励设计上避免粗暴惩罚冗长正确的轨迹以防止模型陷入偷懒陷阱;对于参数庞大且脆弱的模型,应坚持使用在线策略优化。

更多细节请阅读原文。


往期文章: