论文标题：LongCat-Flash-Thinking-2601 Technical Report
论文链接：https://arxiv.org/pdf/2601.16725

TL;DR

LongCat-Flash-Thinking-2601 是美团 LongCat 团队发布的一款拥有 5600 亿参数（激活 270 亿）的开源混合专家（MoE）推理模型。该模型在 Agentic Reasoning（代理推理）能力上表现突出，特别是在 Agentic Search（代理搜索）、Agentic Tool Use（代理工具使用）以及与工具集成的推理任务中，取得了优于现有开源模型的效果，并在部分指标上接近闭源模型。

核心技术要点：

环境扩展（Environment Scaling）： 开发了一套自动化流水线，构建了覆盖 20 多个领域、超过 10,000 个可执行且可验证的仿真环境，解决了 Agentic 任务中高质量环境稀缺的问题。
鲁棒性 RL 训练： 针对真实世界环境的不确定性，设计了噪声注入机制和多领域混合训练策略，显著提升了模型在非理想环境下的泛化能力。
Heavy Thinking 模式： 提出了一种测试时计算（Test-Time Scaling）的新范式，通过并行推理（扩展宽度）和迭代反思（扩展深度）的结合，进一步挖掘模型的推理潜力。
DORA 训练框架扩展： 针对长链路、多轮交互的 Agentic 任务，升级了异步强化学习框架，支持高达 32,000 个并发环境的高效训练。
Zig-Zag Attention： 作为“One More Thing”，探索了一种可从全注意力平滑过渡的稀疏注意力机制，支持百万级上下文长度。

1. 引言

近年来，推理模型在数学和代码任务上取得了显著进展。然而，如何将这种内在的求解能力（Intrinsic Reasoning）转化为解决复杂现实任务的能力，是当前研究的重点。美团团队认为，与外部环境的交互是突破现有瓶颈的关键。

Agentic Reasoning（代理推理）本质上是通过与外部环境的自适应交互来解决复杂问题。这要求模型不仅具备通过思维链（CoT）进行内部审视的能力，还需要判断何时调用工具、如何处理环境反馈，并从长周期的交互中修正错误。

相比于传统的数学推理，Agentic 任务面临三大挑战：

长视界（Long-horizon）： 涉及多轮交互，上下文窗口压力大。
异构环境： 不同领域的 API、数据库结构差异巨大。
长尾动态： 真实环境的反馈具有高度不确定性。

LongCat-Flash-Thinking-2601 的设计初衷即是为了解决上述挑战，通过构建大规模合成环境和鲁棒的 RL 训练流程，填补了由于现实世界中高质量 Agentic 轨迹数据稀缺带来的空白。

2. 预训练与中期训练

模型的基座沿用了 LongCat-Flash-Chat 的配方，保留了通用语言能力。针对 Agentic 能力的提升，主要集中在中期训练（Mid-training）阶段。

2.1 针对长上下文的分阶段训练

Agentic 任务通常伴随着极长的上下文（工具文档、历史交互、搜索结果）。模型采用了分阶段上下文扩展策略：

32K/128K 阶段： 消耗 500B tokens。
256K 阶段： 额外消耗 40B tokens。

为了降低在超参数搜索上的计算成本，团队提出了一种基于验证集损失和 FLOPS 映射的最优超参数预测方法，从而避免了大规模的网格搜索。

2.2 数据合成策略

由于真实世界中涉及复杂推理、规划和交互的高质量数据极其稀缺，报告提出了一种混合数据合成框架，包含文本驱动（Text-driven）和环境驱动（Environment-grounded）两个互补方向。

2.2.1 文本驱动合成

利用大规模文本语料中隐含的过程性知识（如教程、说明书），将其重构为显式的交互轨迹。

工具提取： 识别具有多步工作流的文本段落，定义潜在函数并提取调用列表。
合成与细化： 将抽象工作流转化为具体的用户-代理多轮对话。
增强策略：
- 工具分解（Tool Decomposition）： 将部分工具参数“隐藏”到环境中，迫使模型通过交互去获取这些参数，而不是一次性生成。
- 推理分解（Reasoning Decomposition）： 为每一步行动生成多个候选，并让模型生成选择理由，从而将轨迹转化为决策过程。

2.2.2 环境驱动合成

为了保证逻辑正确性和执行一致性，团队构建了轻量级 Python 环境。

依赖建模： 构建工具间的参数依赖图（Directed Graph）。
逆向合成（Reverse-Synthesis）： 从依赖图中采样有效的工具执行路径，利用逆向工程合成对应的用户 Prompt，并执行代码验证最终状态，确保数据基于真实的执行逻辑。

2.2.3 面向规划的数据增强

Agentic Reasoning 的核心在于规划。为了显式增强这一能力，团队构建了两类特定数据：

问题分解： 合成“问题分解+初始动作选择”的配对数据，提供从粗粒度规划到早期决策的监督。
多候选决策： 从完整轨迹出发，在每个决策点生成多个候选方案，训练模型进行推理和选择。

图 2 Mid-training 阶段不同数据配方对 Agentic 能力 (Pass@k) 的影响对比

3. 环境扩展与自动化构建

这是该报告最核心的技术亮点之一。为了训练通用的 Agent，必须让模型暴露在足够多样化的环境中。人工设计环境不可扩展，因此团队设计了一套自动化流水线，能够从高层定义生成可执行的领域环境。

3.1 领域图 (Domain Graph) 构建

构建过程分为以下步骤：

Schema 生成： 从领域描述生成工具 Schema（函数名、参数、前后置条件）和数据库 Schema。
代码实现： 自动生成数据库实现代码和工具逻辑代码。
单元测试与调试： 通过辅助 Agent 生成单元测试，确保代码转换成功率超过 95%。
依赖图构建： 基于验证后的工具集，构建工具依赖图。节点为工具，边表示参数依赖关系。

目前该系统已覆盖 20 多个领域，每个领域的工具图包含超过 60 个工具，形成了密集的依赖网络。

3.2 保持可验证性的环境扩展

给定一个工具图，如何生成不同难度的环境？团队采用了一种受控的图生长算法。

种子采样： 随机采样一个中等规模的工具链，实例化对应的数据库状态，确保依赖满足。
受控扩展： 为了增加环境复杂度，需要将扩展为更大的子图。
- 这里存在一个关键挑战：如果盲目引入新工具，可能会破坏数据库的一致性，导致有效轨迹执行失败，从而在 RL 中引入错误的负反馈。
- 解决方案： 采用 BFS 风格的扩展，仅添加那些依赖已被当前已实例化工具满足的节点。
多链融合： 决定是否引入新的独立工具链。决策基于概率：

其中是当前环境结构复杂度，是从剩余节点中发现新有效工具链的难度。如果高于阈值，则引入新链并进行融合。

这种机制保证了生成的环境既具有足够的复杂度（每个环境至少 20 个工具），又保持了严格的可执行性和可验证性。

4. 大规模异步强化学习

在 Post-training 阶段，目标是通过 RL 激发模型的 Agentic 能力。这不仅需要算法创新，更需要强大的基础设施支持。

4.1 任务集准备

RL 的效果取决于 Task Set 的质量。

Agentic Coding： 从软件开发平台收集轨迹，通过严格的执行验证和动作级过滤，保留涉及长程调试的轨迹。
Agentic Search： 合成优先考虑完整性和抗“走捷径”能力的推理轨迹。
- 基于图形的 QA 合成： 基于 Wikipedia 实体构建关系图，通过采样生成多跳推理问题，并利用 LLM 模糊化具体细节以增加难度。
- 基于 Agent 的合成： 使用多 Agent 协作（出题、验证、回答、裁判）生成具有歧义约束的问题。
Agentic Tool-Use： 直接基于上述环境扩展流水线生成任务。

4.2 基础设施：扩展 DORA

针对 Agentic 任务的多轮次、长延迟特点，团队对 DORA（Dynamic ORchestration for Asynchronous rollout）系统进行了扩展。

4.2.1 全流式异步管道

消除批处理同步： 在 Rollout 阶段，取消了 Batch Barrier。LLM 生成、环境执行、奖励计算均在样本粒度上异步进行。
多版本共存： 允许不同模型版本的轨迹同时存在，Trainer 只要满足条件即可更新，或利用空闲算力开启更多生成实例。

4.2.2 生产环境中的资源调度

沙箱调度： 实现了高并发沙箱调度器，支持 32,000 个环境并发运行。
轻量级 Rollout 管理： 将原有的 RolloutManager 拆分为轻量级的元数据管理器和多个数据并行的 RolloutController，解决单机 CPU 瓶颈。

4.2.3 PD 分离与 KV-Cache Swapping

针对 560B MoE 模型的显存限制（60GB 卡），采用了 Prefill-Decode (PD) 分离架构。

负载不均衡问题： 长上下文任务会导致专家并行组内的负载不均衡。
解决方案： 将 Prefill 和 Decode 节点物理分离。
KV-Cache Swapping： 引入 CPU 驻留的 KV-Cache。当设备显存不足时，将 KV Block 换出到 CPU，需要时再预取。这支持了 chunk 级别的异步传输，实现了计算与传输的重叠。

图 6 带有 KV-cache Swapping 的 Prefill-Decode 分离工作流

4.3 训练策略

4.3.1 动态预算分配

不同难度的任务对模型当前的训练价值不同。传统的均匀采样效率低下。团队提出基于实时指标（如通过率）的动态价值函数：

利用贪心算法最大化当前 Batch 的总学习价值，动态调整各任务的 Rollout 预算。

4.3.2 混合上下文管理

Agentic 任务容易导致上下文溢出。团队对比了 Summarization 和 Discard 策略，提出了混合方案：

Summary-based: 当上下文超过 80K tokens 时，使用模型自身对历史工具调用进行摘要。
Discard-based: 当交互轮数超限时，触发 Discard-all 重置，仅保留系统提示和原始问题。
实验表明，混合策略在 BrowseComp 任务上实现了最高的效率和准确率。

图 7 不同上下文管理策略在 BrowseComp 上的 Pass@1 准确率对比

4.3.3 鲁棒性 RL：引入环境噪声

这是提升 Real-world 表现的关键。真实环境充满了噪声（指令模糊、工具报错、网络超时）。如果仅在完美合成环境中训练，模型会极其脆弱。

噪声注入： 在训练中显式注入指令噪声（用户表述的多样性、歧义）和工具噪声（执行失败、格式错误、部分结果）。
课程学习： 噪声强度随训练进程逐步增加。

实验数据显示，在引入噪声训练后，模型在 -Bench Noise 和 VitaBench Noise 等噪声测试集上的表现有显著提升（例如 VitaBench-Noise 从 13.3% 提升至 20.5%），且未损害在标准环境下的性能。

图 9 纯合成数据 RL 训练期间 Agentic Benchmark 的性能变化

5. Test-Time Scaling

为了进一步挖掘模型潜力，报告提出了一种名为 Heavy Thinking 的推理模式。这不仅仅是简单的 Self-Consistency，而是一个结构化的“并行推理 + 深度反思”框架。

5.1 框架设计

Heavy Thinking 将推理分解为两个阶段：

并行推理 (Parallel Reasoning) - 扩展宽度：
- 模型并行生成条候选推理轨迹。
- 这些轨迹独立探索不同的解题路径。
重度思考 (Heavy Thinking) - 扩展深度：
- 引入一个 Summary Model（可以是同一模型）。
- 该模型接收并行阶段的所有历史消息和候选答案。
- 上下文记忆模块： 为了支持多轮对话和工具使用，设计了特定的 Prompt 模板，将并行轨迹的排列（仅保留答案内容）组织起来。
- Summary Model 进行反思性推理，综合各路径的优劣，聚合或修正中间结果，生成最终决策。

5.2 针对 Summary 阶段的 RL

为了让 Summary Model 更好地通过并行轨迹进行去伪存真，团队引入了专门针对 Summary 阶段的强化学习。实验表明，这种 Test-Time Scaling 策略在长思维链、工具集成推理等场景下，效果始终优于单纯的 Self-Consistency，且计算预算越大，优势越明显。

6. One More Thing: Zig-Zag Attention

针对长上下文推理的效率问题，尤其是 Heavy Thinking 模式下推理延迟放大的问题，团队探索并发布了 LongCat-Flash-Thinking-ZigZag 模型。

6.1 核心理念

全注意力机制（Full Attention）的复杂度限制了其在超长上下文（1M+）下的应用。现有的稀疏注意力方法通常需要大量重新训练。Zig-Zag Attention 旨在实现从预训练全注意力模型到稀疏模型的平滑过渡。

6.2 架构实现

Zig-Zag Attention 结合了 MLA（Multi-head Latent Attention）和 SSA（Streaming Sparse Attention）。

其中保留了局部窗口和初始锚点。

Zig-Zag 连接性：
采用层级交错稀疏化（Layer-wise interleaved sparsification）。

约 50% 的层替换为 SSA 层。
剩余层保留 MLA 全注意力。
信息传播： 虽然单层是稀疏的，但信息可以通过层间组合在多个层级上传播，形成“之”字形（Zig-Zag）路径，从而在大幅降低计算量的同时保留全局依赖能力。

6.3 性能与效率

通过将约一半的层替换为 Zig-Zag Attention，模型在 1M 上下文下的端到端推理速度提升了约 1.5倍，且在各项基准测试中保持了与全注意力模型相当的性能。

图 12 LongCat-Flash-Thinking 与 Zig-Zag 版本的推理效率对比

7. 实验评估

LongCat-Flash-Thinking-2601 在五个维度进行了评估：数学推理、Agentic Search、Agentic Tool Use、通用推理和代码。

7.1 主要结果

在与 DeepSeek-V3.2、Claude-Opus-4.5、Gemini-3-Pro 等模型的对比中：

Agentic Search: 在 BrowseComp 和 BrowseComp-ZH 上，配合上下文管理，模型分别达到了 73.1% 和 77.7% 的 Pass@1，超越了所有开源模型，并在 RWSearch 上取得了 79.5% 的高分，仅次于 GPT-5.2-Thinking。
Agentic Tool Use: 在 -Bench 和 VitaBench 上表现优异。特别是在引入噪声的测试集（-Noise, VitaBench-Noise）上，得益于鲁棒性训练，展现了极强的抗干扰能力。
数学推理: 搭载 Heavy Mode 后，在 AIME-2025 上实现了 100% 的准确率（参考外部报告分值），在 IMO-AnswerBench 上达到 86.8%，具有与闭源模型一战的实力。
代码: 在 LiveCodeBench 和 SWE-bench Verified 上均位列开源模型第一梯队。

7.2 随机复杂任务

为了验证泛化性，团队引入了一个新的评估协议。基于环境扩展流水线随机生成复杂的 Agentic 任务。结果显示，模型在未见过的任务分布上依然保持了高水平的完成率，证明了 Multi-domain Environment Training 的有效性。

更多细节请阅读原文。

往期文章：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

美团 LongCat-Flash-Thinking-2601 技术报告解读

TL;DR

1. 引言

2. 预训练与中期训练

2.1 针对长上下文的分阶段训练