此篇报告介绍了一种高效的 5600 亿参数开源混合专家(MoE)推理模型 LongCat-Flash-Thinking。该模型通过精心设计的训练流程,包括长链式思考(Chain-of-Thought, CoT)数据的冷启动和大规模强化学习,展现出优异的推理能力。LongCat-Flash-Thinking 在一系列复杂推理任务上实现了领先的性能,其在智能体推理方面表现出效率,在不降低任务准确度的情况下,将 AIME-25 基准测试上的平均 token 消耗减少了约 64.5%(从 19,653 减少到 6,965)。该工作的核心贡献在于构建了强大的通用推理基础,同时针对数学、编程和智能体等专门领域进行了强化。

该研究工作主要贡献体现在以下几个方面:

  • 领域并行 RL 训练与融合方法: 为了解决传统混合领域 RL 训练的不稳定性,该研究设计了一种领域并行方案,将优化过程在 STEM、编码和智能体任务等不同领域解耦。这种方法不仅稳定了训练,还使得将生成的领域专家模型融合为一个接近帕累托最优的单一模型成为可能,从而在所有专业领域表现良好。
  • 工业级 RL 基础设施: 研究团队的 DORA (Dynamic ORchestration for Asynchronous rollout) 系统为训练提供了强大的支持。其异步架构比同步方法实现了三倍以上的训练加速,使得在数万个加速器上进行稳定训练成为现实。这一工业级系统支撑了对 RL 的大量投入,相当于预训练计算资源的近 20%,体现了在大规模训练中的可行性。
  • 广泛高效的推理能力: 该模型在复杂的领域中显著扩展了能力,实现了效率与性能。为了提升智能体能力,该研究提出了双路径推理方法,用于选择那些从工具集成中受益多的高价值训练查询。通过自动化的流程,模型能够构建高质量、工具增强的推理轨迹进行训练。在智能体工具使用方面,LongCat-Flash-Thinking 在 AIME-25 基准测试上将 token 消耗减少了约 64.5%,同时保持了任务准确度。对于形式推理,研究团队开发了一种专家迭代流程,与 Lean4 服务器集成,用于合成生成验证过的证明,系统地在模型中植入大多数大型语言模型所缺乏的能力。
推理基准测试上的平均性能对比
推理基准测试上的平均性能对比

1. 冷启动训练与通用推理基础的培养

1.1 中期训练:推理能力增强

尽管基础预训练赋予了 LongCat-Flash-Base 模型强大的通用能力,但研究团队发现其在处理复杂推理任务时存在限制。尽管后续的 RL 训练显著提升了推理性能,但这些模型通常会产生同质化的推理模式,这妨碍了它们深入思考并为具有挑战性的问题找到正确解决方案的能力。

这种不足主要体现在两个方面:首先,通用预训练语料库虽然庞大,但对 STEM 和编码等推理密集型领域的数据比例不足。其次,也是更关键的,明确的长链式思考 (CoT) 模式在这些专业数据中也稀缺。这种双重数据鸿沟阻碍了模型的内在推理潜力,为后续的长链式思考 SFT 阶段造成了瓶颈。

为了克服这些问题,并受到大型推理模型 (LRMs) 推理边界分析的启发,该研究方法将标准的中期训练阶段转化为一个课程。其目标是培养模型的潜在推理能力(有效地“冷启动”它们),同时不降低其基础的通用知识,从而为后续的长链式思考 SFT 奠定更坚实的基础。

训练策略: 此阶段建立在一个精心策划的、跨 STEM 和编码领域的推理密集型问题数据集上。STEM 数据集涵盖了来自学术档案、教科书和专有数据的数学、物理和化学问题,尤其注重竞赛级别的挑战以确保深度。数据策划过程优先选择需要多步逻辑推理的问题,而非通过简单事实检索即可解决的问题。对于算法编程推理,团队聚合了来自不同开源代码竞赛数据集的问题。这些策划数据被策略性地注入到训练语料库中。团队采用严格的质量控制流程,结合启发式规则和 LLM-as-a-Judge 方法进行过滤、去重和净化。重要的是,团队精细管理数据混合比例,平衡推理密集型数据与原始中期训练数据,以确保模型在发展基础推理技能的同时,不损耗其通用能力。详细的数据策划和混合方法在附录 A.1 中有说明。

评估: 在 LongCat-Flash-Base 模型上进行正式训练之前,研究团队进行了一项初步实验,以验证推理能力增强中期训练的有效性。这项试点研究是在一个具有相同架构的小规模内部 MoE 模型上进行的。团队采用 pass@k 指标和重复采样策略来评估模型的推理能力。给定查询集 中的一个查询 ,设模型为 ,其中 表示参数,我们生成 个响应 ,其中 表示一个响应。因此,pass@k 被定义为:

其中 () 表示正确答案的数量。

推理能力(pass@k)对比
推理能力(pass@k)对比

图 4 展示了团队在三个基准测试上的评估结果:AIME-24、BeyondAIME 和 LiveCodeBench (LCB) (24.08-25.05)。结果揭示了一个清晰的趋势:中期训练中推理密集型数据的比例增加,模型在所有指标(从 pass@1 到 pass@128)上的推理性能得到持续增强。这种效果在所有采样复杂性下都显著,pass@1 分数在 AIME-24 上提升约 27.7%,在 BeyondAIME 上提升约 9.3%,在 LCB 上提升约 6.5%。值得注意的是,对于 pass@64 和 pass@128 等更高的 值,性能提升更加显著,这表明该方法有效拓宽了模型的推理边界。这些令人信服的发现促使团队将这一策略整合到 LongCat-Flash-Thinking 的中期训练流程中。

1.2 面向推理的 SFT

在中期训练之后,团队引入了一个面向推理的 SFT 阶段,以使模型与高质量的指令遵循模式对齐,并增强其专门的推理能力,从而为后续的大规模 RL 训练奠定坚实基础。除了通用推理数据,团队专门增强了 LongCat-Flash-Thinking 在形式推理和智能体推理方面的能力,这两种能力分别通过形式语言和实际工具培养模型的推理能力。

冷启动训练数据构建流程图
冷启动训练数据构建流程图

1.2.1 通用推理

为了增强通用推理能力,团队从多个领域策划了多样化的、高质量的训练数据集:STEM、代码、逻辑和通用问答。构建过程涉及严格的提示策划和响应生成流程,详细的数据处理方法在附录 A.2 中说明。

首先,对于提示策划,团队实施了多阶段过滤流程。1) 初步筛选: 团队使用 LLM-as-a-Judge 方法来排除低质量或无法回答的查询,例如不完整的陈述。对于代码相关数据,团队选择那些描述清晰、包含至少五个单元测试和可执行判断脚本的问题。2) 真值验证: 为验证正确性,团队采用基于模型的投票机制。这涉及自动生成多种响应,以识别并过滤掉不一致或可能错误的真值提示。3) 难度过滤: 除了通用问答外,团队通过专家模型的通过率估计问题难度。通过率高于特定阈值的提示被认为过于简单而被丢弃。最终的提示集从过滤后的池中根据难度分布进行采样。

其次,对于响应生成,团队采用拒绝采样方法。为每个提示合成候选响应,LongCat-Flash-Chat 作为主要生成器。这些候选响应随后通过基于规则和基于模型的判断组合进行评估,以选择高质量的响应作为最终训练数据。

1.2.2 形式推理

近期,Qwen2.5-Math、Kimina-Prover 和 DeepSeek-Prover 等模型的成功,凸显了大型推理模型 (LRMs) 在加速形式推理任务(如自动定理证明 ATP)研究方面的巨大潜力。为了实现这一潜力并赋能研究人员,团队显著增强了模型的形式推理能力。该工作旨在提供一个稳健且多功能的基础,供社区在此基础上构建并探索新的科学前沿。为实现这一目标,团队专注于 ATP,这是一项具有代表性和挑战性的形式推理任务。团队引入了一种新颖的方法来系统地增强模型在该领域的能力。流程图显示在图 3 的左下角。

任务定义: 形式上,ATP 任务是为给定的形式陈述生成有效证明 。该过程始于一个非形式问题,由自然语言问题 及其答案 组成。这首先由 autoformalizer 转换为形式陈述 。然后,模型 生成一个证明候选 。一个验证器 检查证明,产生二元结果 。该工作专注于整体证明生成,即在一次性从形式陈述中生成完整证明。

陈述形式化: 团队收集了多个竞赛级别的数学问题,并进行了数据去重和净化。由于原始数据只包含自然语言问题,团队训练了一个基于 8B 参数的 autoformalizer 模型,将每个非形式陈述(包含原始问题和答案)翻译成形式陈述。随后,团队执行两阶段过滤过程以确保其正确性:1) 语法过滤: 团队遵循 Wang 等人的工作,开发了 Lean4 Server (v4.15)。每个生成的正式陈述都与占位符“:= by sorry”连接,并通过 Lean4 Server 进行编译。因此,语法错误的陈述被移除。2) 语义过滤: 团队发现 autoformalization 有时会改变原始问题的含义。为了解决这个问题,团队采用基于模型的语义过滤器来识别和丢弃与非形式对应项不一致的正式陈述。

迭代证明合成: 证明合成遵循迭代数据增强策略,从冷启动过程开始,通过专家迭代逐步优化。为此,团队使用推理增强的 LongCat-Flash-Base 模型作为证明器的基础,并在整个过程中系统地进行改进。迭代流程如下:

  • 冷启动证明器训练: 此阶段的目标是建立一个初始数据集来训练基线证明器。首先,通过利用现有定理证明工具过滤形式陈述来识别一组可解决的问题。成功验证的陈述被保留,形成初始的(陈述,证明)对。接下来,为了用推理步骤丰富这些数据,团队采用基于模型的合成方法为每对生成自然语言的“思考过程”。这创建了最终的(陈述,思考过程,证明)训练三元组,然后用于在 LongCat-Flash-Base 模型上执行初始 SFT。
  • 专家迭代: 此阶段迭代地扩展数据集并增强证明器。在每次迭代中:1) 当前的证明器尝试为所有未解决的形式陈述生成证明。2) 新生成的证明经过验证,成功的(陈述,证明)对被添加到数据集中。3) 这些新对通过相同的基于模型的合成方法,用合成的思考过程进行丰富。4) 最后,团队聚合所有策划的训练三元组并从头开始重新训练证明器。这个自我改进循环会重复固定的迭代次数。

通过这一迭代过程,团队策划了一个高质量训练实例的丰富语料库,每个实例都包含形式陈述、合成思考过程和验证证明。这个数据集随后被用于全面增强 LongCat-Flash-Thinking 的形式定理证明能力。

1.2.3 智能体推理

智能体推理可以体现在工具使用、解释和复杂问题解决中。现有数据集常常存在模型能够在不实际调用工具的情况下给出满意答案的实例。这类数据对于实际智能体行为的效用有限,因为它缺乏利用外部工具解决问题的挑战。为了缓解这个问题,团队专注于识别和保留那些需要工具协助的高质量查询,从而促进强大智能体能力的开发。

所需工具使用查询选择: 为了策划一个真正需要工具使用的查询数据集,团队首先聚合来自不同来源的候选查询,包括开源数据集(例如 ToolBench、ToolLLM)和内部数据,并进行标准去重和净化。随后,团队引入了一种新颖的双路径评估流程来评估每个查询的“工具必要性”。具体而言,对于给定查询 ,团队提示基线模型在两种不同设置下生成 个解决方案轨迹:一种有工具访问权限 (),另一种没有 ()。这产生了两个响应集:

接下来,这些响应由 LLM-as-a-Judge 评估,以计算 的通过率 。工具必要性值 被定义为使用工具带来的性能提升:。较高的 表明查询仅凭内部知识难以解决,但通过工具协助变得可管理。假设 是预定义的阈值,团队根据阈值集选择查询:,确保最终数据集包含的都是那些工具使用并非仅仅有帮助,而是不可或缺的问题。

自动轨迹合成: 在选择了高价值查询之后,团队合成相应的优质解决方案轨迹。为了支持广泛的任务,团队首先构建了一个多功能环境,其中包含多样化的工具 API,包括 MCP 服务器和模拟工具,用于单轮和多轮交互。对于每个选定的查询,团队使用强大的生成模型产生多个候选轨迹,涵盖从简单的工具调用到复杂的、多步工作流。这些候选轨迹随后由一组基于模型的评估器根据正确性、逻辑一致性和工具使用完整性等标准进行严格评估。仅保留通过此评估的轨迹。验证后的轨迹被标准化为一致的格式,确保推理步骤的逻辑完整性和清晰度。最后,团队根据工具调用次数(单轮与多轮)、依赖结构(顺序与并行)和推理深度(例如,查找、多跳、规划)等因素对这些轨迹进行复杂性分层,以促进基于课程的学习和有针对性的模型增强。

1.2.4 训练

对于 SFT 阶段,团队采用精细的数据策划策略来平衡来自三个面向推理的数据集的多样化和复杂场景。这一策略包括严格的数据净化协议,以确保训练期间零暴露于测试数据。为了进一步增强通用推理能力,团队对 STEM 和编码领域的数据进行了上采样。此外,团队根据定义的几个响应行为特征,例如平均响应长度、反射密度和查询聚类,策划了最终的训练实例。这种方法的目的是显著提升模型在广泛推理任务上的性能,同时保持在智能体工具使用和形式证明生成等专业领域的熟练度。最终的数据混合比例在见下图。

SFT数据分布图
SFT数据分布图

SFT 是在团队的推理增强型基础模型(来自中期训练阶段)上进行的。团队使用 AdamW 优化器,学习率为 ,并对模型进行 2 个 epoch 的训练。为了适应复杂和扩展的推理链,团队将上下文长度设置为 48K token。

2. 大规模强化学习与 DORA 系统

强化学习 (RL) 是提升大型语言模型 (LLMs) 推理能力的关键阶段,它在 token 效率和泛化能力方面超越了监督微调 (SFT)。然而,将 RL 应用于 LLMs 具有挑战性。训练过程通常不稳定,对超参数敏感,并产生大量的系统开销,使工业级部署复杂化。为了克服这些难题,团队开发了一个全面的三管齐下的解决方案:1) 在系统层面,构建了 DORA,一个稳健的分布式 RL 框架,支持异步训练和灵活的加速器使用,以确保稳定性和效率。2) 在算法层面,引入了几项修改以稳定训练并增强适应性。3) 在奖励层面,设计了一个多功能奖励系统,能够处理可验证和不可验证的任务,确保广泛的领域适用性。

2.1 RL 基础设施

RL 训练的效率受到两个主要问题的影响:RL 调度和倾斜生成问题。在调度方面,分离式架构由于不同阶段之间的依赖关系导致设备空闲。相反,共置式架构通过让所有角色共享相同的设备来避免这个问题,但这种效率是有代价的。异构工作负载(生成是内存密集型,训练是计算密集型)的硬件紧密耦合可能导致次优性能。第二个问题,倾斜生成,在同步训练中出现,其中整个批次被最长的单个输出阻塞。在长上下文场景(例如推理或智能体工具使用)中,这个问题尤为明显。异步训练方法,如部分 rollout,已被提出以优化长尾生成问题。它将长响应分解为片段,并利用最新的 Actor 模型在不同迭代中生成每个片段。然而,团队在实践中观察到中断样本重新预填充的效率。使用最新的更新 Actor 模型需要在 rollout 中将所有中断样本与之前未完成的响应连接后重新预填充。此外,在单个响应的不同片段中使用不一致的策略版本理论上可能损害模型收敛。

2.1.1 DORA:动态异步调度系统

为了解决上述挑战,团队引入了 DORA 系统。其核心思想是利用 Actor 模型的多个旧版本,通过流式 rollout 优化长尾生成,同时保持采样一致性。为了进一步提高调度效率,并在不导致设备空闲的情况下并行化生成和训练阶段,团队引入了 RL 角色的弹性共置。正如 [图 5 DORA系统时间线示例] 所示,DORA 采用分离式架构,将加速器集群分为两个不同的组:

  • 独立生成器组: 一组专门用于生成器角色的设备,确保优化的 rollout。生成器是 Actor 模型的副本,专门用于推理。
  • 弹性角色组: 一组设备,其中角色弹性地共置,以确保灵活性和效率。这些设备可以动态地在生成器和执行各种训练相关角色(例如,Reference & Actor、Reward & Critic)之间切换。

基于异步 rollout 的资源调度,团队提出了 DORA 系统的工作流程:

  • 生成阶段: 为了提高 rollout 吞吐量,生成器设备进行扩展,独立组和弹性组都激活推理引擎进行 rollout。推理实例保持多达预定义的策略权重版本滞后数量。在 rollout 阶段,负载均衡控制器会重新平衡不同策略版本之间的资源分配,并在推理引擎内部重用 KV 缓存,如 [图 6 负载均衡控制器工作流程] 所示。重要的是,完成的样本立即流向下一阶段,不阻塞后续阶段。
  • 经验生成阶段: 一旦生成的样本满足训练条件,弹性组会缩减其生成器角色,并激活其他 RL 角色。在部分共置设置中,Reference & Actor 和 Reward & Critic 角色并行执行推理阶段。同时,独立生成器组暂时切换到训练引擎,重新计算日志概率,这是为了最大程度地减少推理引擎和训练引擎之间的系统级不匹配的关键步骤。一旦完成,独立组重新激活推理引擎,并使用以前的策略版本继续生成。
  • 模型训练阶段: 最后,Actor 和 Critic 模型根据收集到的经验进行训练。同时,独立生成器组在不阻塞的情况下继续生成,同时重新平衡工作负载和重新分配资源。值得注意的是,一旦特定策略版本达到用户定义的淘汰策略,它将被删除。训练完成后,最新的策略权重通过层级点对点通信,有效同步回生成器角色,为下一轮 RL 训练做准备。
DORA系统时间线示例
DORA系统时间线示例
负载均衡控制器工作流程
负载均衡控制器工作流程

DORA 的主要优点总结如下:1) 流式架构确保最先完成的响应可以立即在后续阶段处理,而不被最长响应阻塞。2) 多版本设计保证每个响应完全由相同的 Actor 模型生成直到完成,消除了片段之间的不一致性。这也有助于轻松重用中断样本的 KV 缓存,显著减少开销,尤其是在预填充密集型场景中。3) 弹性共置策略通过进程内上下文切换和卸载,实现了设备空闲时间近乎为零,除了可忽略的持续时间外。它还保留了分离式架构的优点,允许灵活分配加速器的数量和类型以适应不同的工作负载。

2.1.2 大规模训练优化

为了在团队的 DORA 系统下实现数万个加速器上的工业级 RL 训练,团队引入了几项关键的工程优化:

大规模流式 RPC: 系统的控制平面构建在 PyTorch RPC 之上,该 RPC 针对张量进行了优化,提供了远程过程调用。它减少了张量显著的序列化和反序列化开销,并允许对计算集群进行专门且灵活的控制。为了实现大规模 RPC 能力,团队增强了 TCPStore 实现,增加了额外的组键原语和 RPC 初始化期间的数据压缩,将通信复杂性从 降低到 。在运行时,团队引入了双向流式 RPC(与 PyTorch 中的单向 RPC 不同),这使得推理引擎在异步训练期间能够实现高性能流式 rollout。

高效 MoE 并行化: 为了在加速器上部署 LongCat-Flash,团队对生成过程采用了高度的专家并行化。这种策略不仅分配了计算负载,还增加了每个加速器的可用内存,这对于适应长上下文任务所需的 KV 缓存至关重要。然而,随着专家并行规模的增加,分布式加速器之间的同步常常受到主机端内核启动开销的瓶颈,可能导致执行不同步。为解决此问题,团队采用了图级编译方法来减少内核调度频率,从而实现了图级优化并有效地将通信与计算重叠。因此,与标准急切执行相比,这种策略将 rollout 速度提高了 1.5 倍。

最终,DORA 架构与大规模优化的结合,展现了卓越的性能和工业级能力,与同步训练相比,团队的 560B LongCat-Flash 模型在数万个加速器上的训练速度提升了三倍以上。

2.2 RL 算法

2.2.1 训练目标

RL 算法基于 DORA 系统开发。团队将 autoregressive 语言模型表示为 ,其中 是参数。给定训练集 中的查询 ,响应 的似然表示为 ,其中 表示响应 的长度。通过行为策略 生成的样本,Group Relative Policy Optimization (GRPO) 是一种 PPO 变体,它通过组级别优势在信任区域内优化策略模型,其目标如下:

其中 是重要性权重, 是将值裁剪到 的函数, 定义了裁剪范围, 是估计的优势函数, 表示来自相同查询的样本组, 是 SFT 模型。然而,当此目标应用于复杂推理场景中的异步训练时,由于分布漂移 (distribution drift),它面临显著挑战,可能破坏模型的收敛性并导致其迅速崩溃。这种现象可分为两个来源:

  • 引擎数值差异: 为了实现高吞吐量和数据效率,高度优化的推理引擎,例如 VLLM,被自然地应用于生成样本。然而,这些引擎使用了内核融合等优化,不保证位级一致性。当推理和训练后端(例如 Megatron 引擎)不匹配时,这种不一致性尤为关键。尽管可以在策略优化期间使用推理引擎的采样概率作为 ,但由于后端不匹配累积的数值误差可能导致不稳定。
  • 策略陈旧: 在异步训练中,每个生成的样本可能源自策略的多个先前版本,而当前策略 在不断更新,这可能导致样本过期。生成数据的行为策略与被优化目标策略之间的这种差异会给训练过程带来不稳定性,阻碍收敛,并在极端情况下可能导致模型崩溃。标准目标(如公式 (3))假设高度的策略对齐,对这些偏差不鲁棒,策略陈旧的影响会削弱其有效性。

为了缓解上述问题,团队通过以下改进修订了 GRPO 目标:

  • vanilla-GRPO 损失包含一个 KL 散度损失项,以防止策略偏离参考模型过远。然而,在使用默认的 估计器时,尽管其期望是无偏的,但此项对应的梯度在优化期间是有偏的。因此,团队移除了 GRPO 损失中的 KL 损失项,这有助于显著的策略更新。
  • 团队采用 token 级损失,而不是样本级损失,以提高训练的稳定性和模型的最终性能。此外,团队使用训练期间的全局常量大生成长度作为损失函数的分母。这种调整减轻了可能给训练鲁棒性带来挑战的长度偏差。
  • 设置裁剪范围对有效的策略优化至关重要,因为它影响探索和模型稳定性。此外,由于专家路由策略可能在不同版本的策略中发生变化,在稀疏 MoE 模型中,策略陈旧问题可能表现得更明显,负 token 级优势可能导致过大的重要性采样比和无界方差。团队采用了三元裁剪方案: 限制负优势的重要性比,而 提供正优势的上限。这种策略防止模型崩溃,并为有效的探索保持了足够的熵。
  • 引擎数值差异在 RL 训练期间可能累积,从而 destabilize 整个训练过程。因此,团队应用截断重要性采样来缓解推理引擎和训练引擎之间的分布不匹配。

最终的目标函数可以表述为:

其中 是最大生成长度, 是采样策略 下训练引擎和推理引擎之间的重要性比率, 是一个常数值。

2.2.2 高效训练策略

为了平衡有效性和效率,同时保持稳定性和避免奖励作弊,团队还采用了其他技术:

  • 带替换的在线过滤: 在流式生成阶段,团队采用在线过滤来移除准确度评分为 1(完全正确)或 0(完全不正确)的提示,保留那些持续具有挑战性难度的样本,提供有效的梯度信号,以防止大的梯度波动。为了确保数据至少被消费一次并保持完整性,团队开发了一种带替换的采样策略进行训练,这与动态采样中使用的不带替换的采样不同。这种机制使得在同步训练场景中,提示可以在每个训练步骤中重新生成。在异步训练场景中,如果提示的陈旧度不超过最大陈旧度阈值,则可以重用;否则,它们将被重新生成。
  • 陈旧度控制: 在流式流水线中,团队将最大陈旧度作为中断策略的一部分,以保持生成样本的可控新鲜度。为了提高样本效率,团队采用数据重用策略,其中在线过滤的过采样数据存储在重放缓冲区中,并根据预定义的重用比例在后续训练迭代中重新采样。这种机制将这些陈旧样本缓存到重放缓冲区中,允许它们在后续训练迭代中与新样本按比例混合。同时,这个混合训练批次需要被打乱以稳定缓冲区内训练的陈旧度。尽管这种策略不可避免地增加了平均陈旧度,但样本效率的提高证明了这是一种有效的权衡。
  • 不完整信号掩蔽: 团队对在代码评估期间发生沙箱执行错误等评级问题的样本应用掩蔽策略。这确保了奖励信号的可靠性,从而产生稍微有偏但低方差的梯度。团队还掩蔽了达到生成 token 长度但未被识别为重复的样本。这有助于防止因输出被截断而导致的损失受到影响,进一步提高了训练信号的稳定性。

2.3 奖励系统

奖励系统对于为优化提供方向至关重要。为了训练 LongCat-Flash-Thinking,团队开发了一个精心设计的奖励系统,通过不同的奖励模型为不同的任务提供准确的奖励信号。

不可验证任务: 采用判别式奖励模型为不可验证任务(如创意写作、知识问答等)提供奖励信号。为了获得这个奖励模型,团队基于 LongCat-Flash SFT 检查点进行初始化,然后在综合偏好数据集上进行训练,该数据集通过人工和模型共同标注。这种方法使得判别式奖励模型能够准确捕捉不同响应之间的偏好。对于长链式思考响应,团队不将推理过程作为输入;因此,奖励模型只评估答案部分。

可验证任务: 对于 STEM 领域,团队开发了一个带推理过程的生成式奖励模型 (GenRM) 来提供训练过程中的奖励信号。给定问题,GenRM 将参考答案与 LLM 的响应进行比较,并判断响应是否正确。

使用带推理过程的 GenRM 有以下优点:首先,GenRM 能够适应具有相同含义的各种答案表达,例如 。同时,GenRM 能够处理复杂的表达式。此外,带推理过程的 GenRM 不仅提供预测,还揭示了预测背后的原因。推理过程使团队能够持续改进 GenRM。团队比较了不同奖励模型的有效性:基于规则的奖励方法、直接输出 True 或 False 的无推理 GenRM,以及融入推理过程的 GenRM,在一个人工标注的测试集上。

不同奖励模型的预测准确度对比
不同奖励模型的预测准确度对比

表 1 展示了这些模型的预测准确度,证明了 GenRM 方法的有效性。

对于编码任务,团队开发了一个分布式代码沙箱集群,以高效管理数百万并发的代码执行,支持 20 多种编程语言。为了处理异步 RL 带来的可变工作负载,团队设计了一个异步接口,它处理大量代码,通过消除持续轮询显著提高了吞吐量。此外,团队还通过一次编译多运行执行来优化效率,以减少开销,并确保通过压缩和缓存分片进行快速可靠的数据传输和存储。

2.4 训练

团队的 RL 训练配方遵循结构化的三阶段方法,旨在培养高级推理能力,包括:1) 领域并行训练,即专家模型在针对不同领域(例如 STEM、代码、智能体)策划的数据集上独立训练;2) 模型融合,这是一种将这些专家模型集成到一个单一、协同智能体中并整合其技能的新颖技术;3) 通用 RL 微调,这是后一个阶段,用于协调模型能力并确保其在各种应用中的稳健性能。

2.4.1 面向推理的 RL:领域并行方法

在 LongCat-Flash-Thinking 的大规模 RL 训练中,团队观察到混合领域训练流程通常会导致异步训练中的负迁移,从而降低效率并产生次优性能。团队将此归因于训练批次之间显著的分布差异,这由跨领域响应特征的变化引起(如 [图 7 不同领域响应长度分布图] 所示)。尽管顺序训练(即一次优化一个领域)可以在某种程度上缓解这个问题,但它本质上是低效且不灵活的。一旦进入后续训练阶段,就难以重新审视或优化早期领域的能力。

因此,团队引入了领域并行训练框架。这种方法首先为不同的推理领域训练单独的“专家”模型,然后将它们合并成一个单一的、强大的模型,该模型在所有专业领域都能实现接近帕累托最优的性能。该过程终以一个通用 RL 阶段结束,以确保广泛的能力和对齐。整个流程如 [图 2 LongCat-Flash-Thinking 训练流程图] 所示。

不同领域响应长度分布图
不同领域响应长度分布图

RL 数据策略: 为了为 RL 阶段提供高质量数据,团队实施了针对每个推理领域量身定制的严格、多方面的策略。对于 STEM 和代码 query,协议始于针对已知基准的标准化去污和去重。团队进一步优化了 STEM 数据集,排除了不合适的格式,例如多部分、多选或真/假问题。对于代码查询,测试用例被系统地重新格式化为标准化输入输出结构,以确保兼容性。随后对两个领域应用了一个关键的过滤步骤,以防止奖励信号偏差:使用 SFT 模型,团队为每个查询生成多个响应,并仅保留那些表现出正确和不正确解决方案平衡分布的实例。这避免了过于容易(全部正确)或几乎无法解决(全部不正确)的问题,从而提高了训练效率。具体来说,对于代码,团队还利用沙箱执行反馈来识别和移除可能导致假阴性的模糊问题或不匹配的测试用例。对于智能体 RL,团队设计了一个专门的数据集,专注于需要复杂推理和工具应用的数学问题。每个训练实例都被结构化为三元组,包含问题描述、参考答案和相应的评分规则。这种详细结构旨在有效引导模型学习解决复杂任务所需的工具使用轨迹。

领域并行训练: 团队的领域并行方法的一个主要优点是能够根据每个推理领域的独特特征定制训练方法。团队为 STEM、代码和智能体 RL 应用了不同的配置,以实现它们各自的优势最大化:

  • STEM RL: 训练过程使用固定的 64K 上下文长度。团队实施了一种课程学习策略,通过逐渐增加数据难度(通过降低纳入的通过率阈值)来保持训练稳定性。同时,团队动态调整 PPO 裁剪边界 以保持训练稳定性。这些方法保证了模型的学习以高效的方式发展,同时无缝适应训练数据日益增长的复杂性。
  • 代码 RL: 团队采用多阶段上下文长度课程,从 48K token 开始,然后逐步扩展到 56K,最终达到 64K。当生成的输出长度的 90 百分位接近当前限制时,上下文窗口会自动扩展,确保平稳适应。
  • 智能体 RL: 训练过程使用固定的 48K 上下文长度。团队通过两种技术强制执行结构化推理和工具使用:1) 使用 <longcat_think><longcat_tool_call> 标签的结构化对话模板,以及 2) 激励语法正确工具使用的工具调用格式奖励,确保稳定且可解释的多轮轨迹。

2.4.2 模型融合

为了整合领域专家模型的能力,团队将它们的参数合并为一个单一的、统一的智能体。这种方法得到了前人工作的支持,这些工作表明合并领域特定模型可以产生一个具有卓越整体性能的单一模型。主要挑战是缓解专家之间的参数干扰。为了解决这个问题,团队采用了受近期进展启发的三管齐下的策略:1) 归一化: 团队归一化任务向量()的幅度,以平衡不同领域的贡献。2) Dropout: 类似于 DARE(https://arxiv.org/abs/2311.03099),团队应用 Dropout 来修剪冗余的 delta 参数。3) 擦除: 受 SCE(https://arxiv.org/abs/2408.07990) 启发,团队擦除具有少数方向更新的参数元素。这种融合策略构建了一个在数学推理、编码和智能体能力方面表现优异的单一模型,如图 8 所示。

融合模型在各RL领域训练后的性能表现
融合模型在各RL领域训练后的性能表现

2.4.3 通用 RL 微调

LongCat-Flash-Thinking 流程的最后阶段是一个通用 RL 阶段,旨在增强模型在广泛场景(例如创意写作、指令遵循)中的能力,并防止在融合后核心能力(如安全性)的退化。团队首先从开源和合成查询中编译了一个多样化的数据集,然后应用聚类算法进行去重和过滤,以获取高质量、具有挑战性的数据。这个策划好的数据集随后用于最后一轮 PPO 训练,确保模型良好对齐、稳健并适应实际应用。

3. 评估

本节对 LongCat-Flash-Thinking 模型在整个训练流程后的自动基准测试上进行了评估。这些基准测试分为几个维度,包括通用问答、对齐、数学、通用推理、编码、智能体工具使用、形式定理证明和安全性。

评估结果

多基准测试上的性能(%)对比
多基准测试上的性能(%)对比

表 2 展示了 LongCat-Flash-Thinking 与 DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking、GLM-4.5、OpenAI-03、Gemini2.5-Pro 和 GPT-5-Thinking 等多种先进推理模型的比较。综合评估结果表明,LongCat-Flash-Thinking 是一个能力强且多功能的模型。它在广泛的推理任务中持续展现出色的性能,超越了需要更多激活参数的同类模型。以下详细分析了这些能力。LongCat-Flash-Thinking 的推理参数设置为温度 , topk , 和 topp

AIME-25上的性能(%)与平均Tokens对比
AIME-25上的性能(%)与平均Tokens对比

往期文章: