目前,业界主流的两种范式监督学习和 RL 在“scaling”这一维度上遇到了各自的瓶颈。

我们能否设计一种新的训练范式,它既能像强化学习一样促进模型探索和学习更深层次的推理能力,又能摆脱对人工标注的依赖,从而直接在海量的预训练数据上进行规模化训练?

来自腾讯混元团队的论文《Reinforcement Learning on Pre-Training Data》中,对这一问题提出了一个创新的解决方案。他们引入了一种名为“预训练数据上的强化学习”(Reinforcement Learning on Pre-Training Data, RLPT)的新范式。RLPT的核心思想是,将传统的、基于 token 级别的监督学习,转化为基于语义片段级别(segment-level)的强化学习。它通过设计一个自监督的“下一语义片段推理”目标,直接从预训练数据本身中提取奖励信号,从而让模型在探索中学习,提升其泛化推理能力。

  • 论文标题:Reinforcement Learning on Pre-Training Data
  • 论文链接:https://arxiv.org/pdf/2509.19249

1. 背景

在深入 RLPT 之前,我们简要回顾一下作为其基础的两个核心概念:大型语言模型中的 RL 和 Next-Token Prediction。

1.1 强化学习

强化学习已成为优化LLM能力的重要工具。其形式化目标可以表示为:

其中, 是来自数据集 的一个查询(prompt), 是由模型参数 定义的策略(即LLM本身), 是模型根据查询 生成的输出。 是一个奖励函数,用于评估输出 的质量。RL的目标就是调整模型参数 以最大化期望奖励。

  • RLHF:在RLHF中, 通常是一个独立的、在人工标注的偏好数据上训练出来的奖励模型。它用于评估生成内容是否符合人类的偏好。
  • RLVR:在RLVR中, 通常是一个基于规则的函数,例如,通过将模型的解题步骤与标准答案进行对比来判断其正确性。

尽管这些方法很有效,但它们共同的特点是奖励信号 来源于模型和数据之外的“外部”信息(人类偏好、参考答案)。这种依赖性是其难以在通用预训练数据上扩展的核心原因。

1.2 Next-Token Prediction(NTP)

NTP是现代LLM进行预训练和监督微调(SFT)的基础。其目标是最大化在给定上文的条件下,预测下一个真实 token 的对数概率。其形式化目标如下:

其中, 是一个来自语料库 的 token 序列, 是其长度。尽管NTP在构建LLM的基础能力方面取得了巨大成功,但越来越多的研究指出,这种逐 token 优化的方式可能引导模型学习到数据的“表面统计模式”,而不是生成内容背后的深层逻辑和推理结构。

RLPT 正是为了结合二者的优点——既利用RL的探索性学习优势,又利用NTP的可扩展性——而被提出的。

2. RLPT

RLPT 的核心在于设计了一个自监督的强化学习框架,它不需要外部标注,而是直接从预训练数据中构建奖励信号。下面我们详细拆解其构成。

RLPT 概览
RLPT 概览

如图2所示,RLPT 的流程主要包括数据准备和强化学习两个阶段。它首先将来自互联网的原始文本数据处理成特定的训练样本格式 ,然后在强化学习阶段,让模型根据上下文预测中间的文本片段 ,并使用一个生成式奖励模型来比较 和真实片段 的语义一致性,从而计算奖励。

2.1 数据准备

RLPT 的训练数据源自于多样化的网络文本,如维基百科、arXiv论文、技术问答社区等。为了保证数据质量和合规性,作者采用了一个多阶段的预处理流程:

  1. 准去重:使用 MinHash 算法进行近乎重复的内容移除。
  2. 个人信息处理:检测并屏蔽文本中的个人可识别信息(PII)。
  3. 污染数据移除:确保训练数据中不包含任何来自开发集和评估集的内容。
  4. 质量过滤:这是一个关键步骤,结合了基于规则和基于模型的方法。

    • 基于规则的过滤:移除明显不适合语言模型训练的内容。
    • 基于模型的过滤:使用一个经过指令微调的语言模型,对文本进行更细粒度的质量评估和筛选。
      此外,为了增强模型的数学推理能力,作者还特别引入了高质量的数学问答数据。

2.2 下一语义片段推理(Next-Segment Reasoning)

这是 RLPT 框架的理论核心。传统NTP在 token 级别进行操作,而RLPT则在语义片段(segment)级别进行。一个文本 首先被分割成一个由多个连续语义片段组成的序列 。这里的“语义片段”可以是一个短语、一个完整的句子或一个推理步骤。在论文的实验中,作者默认使用“句子”作为基本的语义片段单元。

基于这种分割,数据集被构建为如下形式:

其中, 代表上文, 是目标预测片段, 则是紧随其后的片段。

基于此数据结构,作者设计了两个互补的训练任务,以从不同角度锻炼模型的推理和生成能力。

2.2.1 自回归片段推理(Autoregressive Segment Reasoning, ASR)

ASR 任务的目标与传统语言模型的自回归生成过程保持一致,即根据上文 来预测下一个片段 。这个任务旨在增强模型的连贯生成和前向推理能力。其提示(prompt)设计如下所示:

Complete the text provided under ### Context by predicting the next most probable sentence.

Please reason step by step to determine the best possible continuation, and then enclose your final answer within <|startofprediction|> and <|endofprediction|> tags.

### Context
{context}

这里的 {context} 就是 。模型需要生成一段包含在特殊标记 <|startofprediction|><|endofprediction|> 之间的文本,作为其对 的预测。

2.2.2 中间片段推理(Middle Segment Reasoning, MSR)

为了让模型能够利用更广阔的上下文信息,作者引入了 MSR 任务。该任务要求模型根据上文 和下文 来预测中间缺失的片段 。这类似于掩码语言模型(Masked Language Model)的完形填空任务,对于需要代码补全或文本编辑等场景尤为有用,能够增强模型的双向理解和上下文整合能力。其提示设计如下:

## Text Material ##:
{prompt}
<MASK>
{next_step}

## Task ##:
Fill in the <MASK> section of the material with appropriate sentences or a solution step.

Carefully reason step by step to determine the most suitable completion.
Finally, provide your best prediction for the <MASK> section.
Enclose your final answer for the <MASK> part within <|startofprediction|> and <|endofprediction|>.

这里的 {prompt} 对应 {next_step} 对应

在训练过程中,ASR 和 MSR 任务会交错进行,以同时优化模型的自回归生成能力和上下文理解能力。

2.3 生成式奖励模型与奖励计算

RLPT 的自监督特性来源于其独特的奖励机制。奖励信号并非来自外部标注,而是通过一个生成式奖励模型(Generative Reward Model, 对模型预测的片段 和真实片段 进行语义一致性评估来获得。

本身也是一个语言模型。它接收预测片段和参考片段,并判断两者在语义上是否等价。一个关键的设计细节是,直接要求 语义完全一致可能过于严苛,因为模型有时会生成一个语义正确但跨越了多个后续真实片段的、更长的预测。

为了解决这个问题,作者引入了一种前缀奖励(prefix reward)机制。奖励模型 不再判断 是否与 完全等价,而是判断 是否是后续真实文本片段序列(如 )的一个语义上有效的前缀。这种宽松的奖励机制更加稳定,并能鼓励模型生成更长、更完整的推理链条。

的提示如下:

## Task
Given a Predicted sentence and a Reference paragraph, determine whether the Predicted text is a prefix (
initial segment) of the Reference paragraph, and whether it expresses exactly the same semantic content
as the corresponding prefix of the Reference.
The Predicted text does not need to match the prefix of the Reference word-for-word, but it must convey
the same meaning.
Reference:
{reference}
Predicted:
{predicted}
## Scoring Rules
If the Predicted text semantically matches the prefix of the Reference, assign a score of 1.
If the Predicted text does not semantically match the prefix of the Reference, assign a score of 0.
When making your judgment, focus primarily on semantic equivalence, not on exact wording.
Only output the score on a single line; do not provide any explanatory text or additional content.
Output format (choose one):
Score: 0
or
Score: 1

最终,对于模型输出 中提取的预测片段 ,其奖励 定义为:

2.4 RLPT 训练目标与流程

RLPT 的最终训练目标是 ASR 和 MSR 两个任务期望奖励的加权和:

其中, 是一个超参数,用于平衡 ASR 和 MSR 任务的贡献。

完整的训练流程包含两个阶段:

  1. 冷启动(Cold-Start)阶段:由于 RLPT 要求模型具备一定的遵循指令和执行片段推理的能力,直接在一个基础(Base)模型上进行 RL 训练可能效果不佳。因此,作者首先在一个包含指令遵循数据的语料上对基础模型进行监督微调(SFT)。
  2. 下一语义片段推理阶段:在冷启动之后,使用策略梯度算法,如 GRPO (Generalized Reward Policy Optimization),来优化 目标。GRPO 是一种 on-policy 的 RL 算法。在此阶段,不使用 KL 正则化。

3. 实验

作者在一系列通用领域和数学推理基准上,对 Llama3 和 Qwen3 家族的多个模型进行了广泛的实验,以验证 RLPT 的有效性。

3.1 实验设置

  • 模型:Llama-3.2-3B-Base, Qwen3-4B-Base, Qwen3-8B-Base。
  • 冷启动SFT阶段:批量大小为1024,学习率为 ,使用余弦学习率调度器,训练3个周期。
  • RLPT阶段:批量大小为512,最大响应长度为8192,使用 的恒定学习率。每个提示采样8个输出来进行策略更新。
  • 评估基准

    • 通用领域:MMLU, MMLU-Pro, GPQA-Diamond, SuperGPQA, KOR-Bench, OlympiadBench,评估指标为准确率。
    • 数学推理:MATH-500, AMC23, Minerva Math, AIME,评估指标为 Pass@k。Pass@k 是衡量在 次独立尝试中,至少有一次成功的概率。其无偏估计量为:


      其中, 是总采样数(实验中为64), 是正确答案数。实验报告了 Pass@1 和 Pass@8。

3.2 实验结果

3.2.1 通用领域任务性能
不同模型在通用领域任务上的性能对比
不同模型在通用领域任务上的性能对比

如表1所示,RLPT 在所有模型和基准上都带来了稳定且显著的性能提升。

  • 在 Qwen3-4B-Base 模型上,RLPT 在 MMLU, MMLU-Pro, GPQA-Diamond 和 KOR-Bench 上分别带来了 3.0, 5.1, 8.1 和 6.0 个百分点的绝对提升。
  • 在 Qwen3-8B-Base 模型上,同样观察到了 1.4 到 3.4 个百分点的性能增益。
  • 在 Llama-3.2-3B-Base 上的结果也验证了 RLPT 的泛化能力,尤其是在 GPQA-Diamond 上,提升了11.6个百分点。
    这些基准覆盖了STEM、法律、经济、健康等多个领域,实验结果表明 RLPT 能够有效利用大规模预训练语料中蕴含的广泛知识。
3.2.2 数学推理任务性能
Qwen3-4B 模型在数学推理基准上的性能对比
Qwen3-4B 模型在数学推理基准上的性能对比

数学推理是衡量模型深度推理能力的关键。如表2所示,RLPT 在这项具有挑战性的任务上也表现出色。

  • 在 Qwen3-4B-Base 模型上,相较于仅经过 SFT 的冷启动模型,RLPT 在 AIME24 和 AIME25 这两个高难度竞赛级数学基准上,Pass@1 分别提升了 6.6 和 5.3 个百分点,Pass@8 分别提升了 5.0 和 1.4 个百分点。
  • 更重要的是,RLPT 为后续的 RLVR 训练提供了一个高质量的起点。当以 RLPT 训练后的模型作为初始模型再进行 RLVR 训练时(RLPT+RLVR),性能得到进一步提升。在 AIME24 和 AIME25 上,Pass@1 相比单独的 RLVR 分别额外提升了 2.3 和 1.3 个百分点,Pass@8 额外提升了 3.7 和 2.0 个百分点。

这表明 RLPT 不仅自身能够提升推理能力,还能作为一种基础性的增强技术,为其他依赖特定奖励的 RL 方法(如RLVR)解锁更高的性能上限。它同时增强了模型的“探索”(exploration,体现在 Pass@8 的提升)和“利用”(exploitation,体现在 Pass@1 的提升)能力。

3.3 深度分析

3.3.1 scaling 特性
RLPT在不同基准上的性能随训练 token 数量变化的 scaling 定律
RLPT在不同基准上的性能随训练 token 数量变化的 scaling 定律

为了探究 RLPT 的潜力,作者分析了其性能随训练计算量(以训练 token 数衡量)的变化趋势。如图1所示,在 MMLU, GPQA-Diamond 等多个基准上,RLPT 的性能与训练 token数之间呈现出一种幂律(power-law)关系。这意味着随着计算资源的持续投入,RLPT 带来的性能增益有望继续增长,显示了其作为一种可扩展训练范式的潜力。

RLVR 与 RLPT+RLVR 的 scaling 特性对比
RLVR 与 RLPT+RLVR 的 scaling 特性对比

图3进一步比较了单独使用 RLVR 和使用 RLPT 作为起点的 RLPT+RLVR 的性能 scaling 曲线。在整个训练过程中,RLPT+RLVR 的性能曲线始终稳定地高于单独的 RLVR,这再次印证了 RLPT 能够提供一个更强的初始模型,使得后续的 RL 训练能够达到更高的高度。

3.3.2 推理模式分析
RLPT 推理模式示例
RLPT 推理模式示例

RLPT 为何有效?作者通过一个示例展示了 RLPT 训练出的模型在执行“下一片段推理”任务时的“思考”过程。如表3所示,模型并非简单地直接生成答案,而是展现出一种结构化的、多步骤的推理模式:

  1. 理解上下文:首先分析和总结给定上下文的核心信息。
  2. 确定下一步:基于上下文,判断逻辑上的下一步应该是什么。
  3. 验证流程:评估当前推理路径的合理性。
  4. 考虑替代路径:探索其他可能的推理方向。
  5. 回溯检查:对推理过程进行反思和确认。
  6. 生成最终答案:在完成上述思考后,生成最终的预测片段。

这种类似“思维链”(Chain-of-Thought)的内在推理过程,是模型在复杂的、需要探索的 RL 环境中为了最大化奖励而自主学习到的策略。这解释了为何 RLPT 能够带来比传统监督学习更深层次的推理能力提升。

3.3.3 奖励模型的迭代
严格奖励与前缀奖励的对比
严格奖励与前缀奖励的对比

奖励模型的设计是 RLPT 的关键。作者在研究初期曾使用一种“严格奖励”(Strict Reward)机制,即要求预测片段和真实片段在语义上完全等价。然而,这种机制在实践中遇到了问题。由于句子分割导致的信息分布不均(有些句子信息量大,有些则很小),模型常常会生成包含多个真实片段信息的长句,导致被“严格奖励”模型误判为错误,从而干扰了训练过程。

如图4所示,与“严格奖励”相比,“前缀奖励”(Prefix Reward)带来了更稳定的训练奖励信号(图a),鼓励模型生成更长的响应(图b),并最终在验证集上取得了更好的性能(图c)。这一设计细节的演进,体现了在自监督 RL 框架中设计一个鲁棒且有效的奖励信号的重要性。

4. 相关工作讨论

RLPT 的提出并非空中楼阁,它与当前LLM领域的两大研究方向——扩展范式和强化学习应用——紧密相关。

4.1 扩展范式(Scaling Paradigms)

LLM 的发展根本上是由计算规模的扩展驱动的。这可以分为训练时扩展和测试时扩展。

  • 训练时扩展:主要依赖 NTP,通过增大模型尺寸或扩展预训练数据来降低预测损失。RLPT 属于训练时扩展,但它将计算资源从单纯的监督学习转向了强化学习,让模型通过自我探索来学习,而不仅仅是被动地拟合数据。
  • 测试时扩展:在推理阶段投入更多计算,例如通过生成非常长的思维链。
    RLPT 的不同之处在于,它通过 RL 在训练阶段就将这种“深思熟虑”的探索过程内化为模型的能力,可以看作是一种将“深思”过程从测试时压缩到训练时的方法。

与 RLPT 最相关的两个工作是 RPT (Reinforcement Pre-Training) 和 Quiet-STaR。它们都尝试在无标签数据上应用 RL 进行训练时扩展。但 RLPT 的核心区别在于其预测目标:RPT 和 Quiet-STaR 仍然聚焦于下一 token 的预测,而 RLPT 将目标提升到了下一语义片段的层面,这使得模型能够学习更高层次的语义连贯性和推理结构。

4.2 LLM 中的强化学习

RL 在 LLM 中的应用早期主要聚焦于对齐人类价值观(RLHF)。近期,RL 被越来越多地用于增强推理能力,例如通过基于规则的奖励函数(RLVR)。然而,无论是 RLHF 还是 RLVR,都受限于对人类提供或可验证的监督信息的依赖。

RLPT 引入的“下一片段推理”目标,本质上是一种自监督的奖励机制,它将自然文本中的后续片段作为“参考答案”。这种设计消除了对外部标注的需求,使得强化学习能够有效地扩展到大规模的预训练数据上。

5. 结论

本文详细介绍了 RLPT,一种新的、旨在通过强化学习来优化LLM的训练时扩展范式。其核心贡献在于:

  1. 提出了一种自监督的“下一语义片段推理”RL目标,结合 ASR 和 MSR 任务,移除了对人工标注的依赖,使得 RL 能够直接应用于海量无标签语料库。
  2. 通过广泛的实验证明了 RLPT 的有效性。无论是在通用领域知识基准还是在高难度的数学推理任务上,RLPT 都为多种基础模型带来了显著的性能提升。
  3. 揭示了 RLPT 良好的 scaling 特性,其性能随计算投入呈现幂律增长,展示了作为一种可扩展范式的巨大潜力。
  4. 证明了 RLPT 可以作为更强大的基础,为后续的 RLVR 等依赖特定奖励的 RL 方法提供一个更高的起点,从而进一步拓展LLM的推理边界。

RLPT 为我们提供了一个新的视角来看待LLM的训练。它表明,通过将计算资源从单纯的监督学习转向更具探索性的强化学习,并巧妙地从数据自身中构建奖励信号,我们可以更有效地挖掘海量预训练数据中蕴含的知识和推理结构,从而培养出能力更强的语言模型。


往期文章: