当前工业界正在积极探索“ DeepResearch ”这一技术路径。然而,构建一个强大的研究型智能体面临着严峻的挑战,其中最核心的瓶颈之一在于训练数据。

  1. 数据的稀缺性与高昂成本:一个研究型智能体需要学习如何在长时程(long-horizon)中与环境(如搜索引擎、数据库、代码解释器)进行有效交互。记录这些交互过程所产生的“轨迹(trajectory)”数据,是训练智能体的关键。然而,获取大规模、高质量的轨迹数据极为困难。依靠人类专家来标注或演示这些复杂的、动辄数十步的研究过程,不仅成本高昂、耗时漫长,而且难以保证标注的多样性和规模化,无法满足模型训练的需求。
  2. 训练范式的缺失:现有的 LLM 训练范式——预训练(Pre-training)、监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)——需要进行调整以适应智能体的学习需求。直接在通用的预训练模型基础上进行 SFT 和 RL,可能会因为模型缺乏对“智能体行为”的先验认知(即归纳偏置)而导致训练效率低下或效果不佳。如何在预训练和后训练(post-training)之间建立一个有效的桥梁,系统性地向模型注入智能体所需的规划、推理和工具使用能力,是一个待解决的问题。

阿里巴巴通义团队推出了 Tongyi DeepResearch,一个专为长时程、深度的信息寻求和研究任务而设计的智能体大语言模型。这项工作的核心贡献不在于提出一个全新的模型结构,而在于构建了一套端到端的、以合成数据为中心的可规模化训练框架。它通过“智能体中期训练(agentic mid-training)”和“智能体后训练(agentic post-training)”的结合,以及一个全自动的数据合成流水线和多阶段的环境设计,系统地解决了智能体训练中的数据瓶颈和范式缺失问题。

  • 技术报告链接:https://arxiv.org/pdf/2510.24701

1. 通义 DeepResearch 概览

通义 DeepResearch 是一个旨在赋予大语言模型自主研究能力的智能体。其目标是让模型能够像人类研究员一样,围绕一个复杂问题,自主地进行规划、搜索、推理和知识合成。该项工作的核心贡献可以概括为以下三点:

  1. 端到端的智能体训练范式:该工作提出了一个整合了“智能体中期训练”和“智能体后训练”的端到端训练框架。这一框架为深度推理和信息寻求行为的规模化学习提供了基础。其中,“中期训练”是一个创新的阶段,用于在预训练和后训练之间,为模型注入核心的智能体归纳偏置。
  2. 全自动、可规模化的数据合成流水线:为支撑整个训练框架,作者设计了一套完全自动化的数据合成流水线。该流水线无需昂贵的人工标注,能够为训练的每个阶段生成大规模、多样化且高质量的智能体轨迹数据,是整个系统得以运转的引擎。
  3. 阶段性的、定制化的环境构建:该工作认为,智能体的能力涌现离不开与环境的交互。他们将环境设计为与训练过程紧密耦合的系统,并构建了三种不同形态的环境(先验世界、模拟环境、真实世界),在训练的不同阶段自适应地使用,以平衡训练的稳定性、真实性和成本。

2. 核心设计原则

2.1 智能体训练 Pipeline

智能体的训练比传统的 LLM 训练更为复杂。该研究将训练过程明确地划分为两个核心阶段:中期训练(mid-training)后训练(post-training)

图 2 通义 DeepResearch 的训练流程
图 2 通义 DeepResearch 的训练流程
  • 智能体中期训练(Agentic Mid-training):这是连接通用预训练和特定智能体后训练的关键桥梁。通用的基础模型通常在海量的网络文本上进行预训练,缺乏针对智能体行为(如工具调用、结构化思考)的归纳偏置。如果在这样的模型上直接进行后训练,模型需要同时学习智能体的行为模式和与人类偏好的对齐,这可能导致优化冲突和次优结果。中期训练阶段的核心目标,就是通过在一个大规模、高质量的智能体行为数据集上进行持续预训练(Continual Pre-training),为模型注入强大的“智能体先验知识”。这使得模型在进入后训练阶段之前,就已经具备了初步的智能体行为倾向,从而为后续更精细化的学习奠定了一个坚实的基础。

  • 智能体后训练(Agentic Post-training):在具备了智能体归纳偏置的基础模型上,后训练阶段旨在进一步释放和优化模型的深度研究能力。这个阶段包含两个步骤:

    1. 监督微调(SFT):作为冷启动,SFT 使用高质量的专家演示轨迹来教模型模仿可靠的研究工作流和工具使用方式。它为模型建立了一个稳定的行为基线。
    2. 强化学习(RL):SFT 建立的模仿行为往往缺乏探索性。RL 通过让智能体与环境进行真实的交互,并根据任务成功与否给予奖励信号,来闭合学习循环。RL 能够(1)通过与环境的主动交互探索最优策略;(2)内化目标导向的规划和执行能力;(3)通过优先学习高奖励行为来提升样本效率。

通过“中期训练 → SFT → RL”这样一个循序渐进的流程,模型的能力从基本的语言理解,逐步发展到模仿性的交互,最终演进为自主性的研究行为。

2.2 以合成数据为中心的 Scaling

数据是训练的基础,而高质量的智能体数据是稀缺的。深度研究问题要求智能体具备连接信息、跨源推理和验证结论的能力。与自然丰富的预训练数据和相对容易标注的传统 SFT 数据不同,智能体数据(尤其是长轨迹)的获取难度极大。因此,该工作将合成数据视为规模化提升 DeepResearch能力的核心。

他们认为,与人工标注相比,使用 LLM 合成数据具有以下几个优势:

  • 易于规模化生成研究级问题:相比于人工构思,使用 LLM 可以高效地生成大量的问答对。
  • 易于泛化模式和多样性:LLM 能够理解复杂问题的结构,并生成具有不同模式和多样性的问题,而训练人类标注员来理解和创造这些模式是耗时且困难的。
  • 支持有针对性的元能力增强:通过将复杂的智能体任务分解为基础的元能力(如规划、信息综合、记忆管理),可以生成专门针对这些单一技能的合成数据,进行靶向训练。
  • 合成数据易于验证:验证一个已有答案的合成数据,通常比从零开始为一个问题寻找答案要容易得多。
  • 可形成数据飞轮:经过一轮智能体训练后,能力更强的模型可以被用来生成更高质量的合成数据,这些新数据又可以用来训练下一代更强的模型,形成一个迭代演进的闭环。

2.3 通过环境交互进行学习

环境交互在智能体的能力涌现中扮演着至关重要的角色。然而,完全依赖真实世界环境进行端到端的训练面临两大挑战:(1)非平稳性(Non-stationarity):真实世界环境(如网络搜索API)是动态变化的,这会导致训练数据的分布持续漂移,破坏学习的稳定性。(2)交互成本(Interaction cost):每次 API 调用都有实际的开销,进行大规模的探索在经济上是不可行的。

为此,该研究提出了一种新的角度:环境不应被动地视为外部现实,而应被主动地设计为与训练过程深度耦合的系统。他们将环境建模为三种形态,每种形态在稳定性、保真度和成本之间取得了不同的平衡:

  1. 先验世界环境 (Prior World Environment) :该环境提供任务元素、工具和状态的定义,允许智能体基于其预训练知识自主地挖掘交互轨迹,而无需获得真实的环境反馈。它提供了完美的稳定性、零交互成本和无限的可扩展性,但缺点是缺乏真实世界的反馈信号。
  2. 模拟环境 (Simulated Environment) :该环境在本地构建了真实世界交互的可控、可复现的副本(例如,基于维基百科快照的搜索引擎)。它提供了稳定性、快速响应和低成本,使得快速迭代和因果分析成为可能。其固有的局限性在于数据覆盖范围有限,存在模拟与现实之间的差距(sim-to-real gap)。
  3. 真实世界环境 (Real-world Environment) :该环境提供了最真实的分布和反馈信号,是检验智能体能力的最终试金石。其优势在于绝对的分布保真度,但代价是高昂的交互成本、显著的非平稳性和探索风险。

基于这三种环境,该研究采取了自适应的策略。在智能体中期训练阶段,主要利用先验世界和模拟环境,以最小的成本大规模生成合成数据,完成智能体能力的初始引导。在智能体后训练阶段,首先在模拟环境中验证训练策略和算法,然后将验证过的最优策略部署到真实世界环境中进行最终训练。

3. 通义 DeepResearch 技术实现

基于上述设计原则,研究团队构建了 通义 DeepResearch 的完整技术系统。

3.1 基础框架与上下文管理

ReAct 框架

通义 DeepResearch 的架构基于 ReAct 框架,该框架将“推理(Reasoning)”和“行动(Acting)”相结合。在一个交互循环中,智能体首先生成一个推理轨迹(Thought),然后基于该思考产生一个外部行动(Action)。行动与环境交互后,返回一个观察结果(Observation)。这三者(Thought, Action, Observation)构成一个基本的三元组。

一个完整的任务执行过程形成一个轨迹

其中 是给予用户的最终答案。在任意时间步 ,智能体的策略 根据之前的所有交互历史 来生成当前的思考 和行动

作者选择 ReAct 是因为它简单且符合“Bitter Lesson”的理念,即利用可扩展计算的通用方法最终会胜过依赖复杂、人工设计知识的方法。

上下文管理 (Context Management)

长时程任务的执行受到模型有限上下文窗口的根本制约。为了缓解上下文溢出的风险并保持任务焦点,该研究提出了一个上下文管理范式。该范式不依赖于完整的历史记录,而是在每一步动态地重构一个工作空间。

在时间步 ,智能体的输入不再是完整的 ,而是一个策略性重构的上下文,仅包含最核心的元素:原始问题 ,一个作为压缩记忆不断演进的报告 ,以及上一步的直接交互结果 。这种马尔可夫结构使智能体能够在任意探索深度上保持一致的推理能力。其核心更新过程可以形式化为:

这种范式不仅防止了上下文溢出,还通过要求智能体在每一步明确地综合和优先处理信息,强制执行了结构化的推理。

3.2 智能体中期训练

中期训练是 通义 DeepResearch 训练流程的核心创新之一,采用两阶段的智能体持续预训练(Agentic CPT)

  • 训练配置:该阶段的目标是为模型注入智能体行为的归纳偏置,同时保留其广泛的语言能力。优化目标是标准的下一词元预测(Next-Token Prediction)损失函数。训练分为两个阶段:第一阶段使用 32K 的上下文长度,第二阶段扩展到 128K。在第二阶段,引入了大量的长序列(64K-128K)智能体行为数据,以增强模型进行长时程推理和行动的能力。在两个阶段中,都混入了一小部分通用的预训练数据,以防止模型遗忘其基础泛化能力。

  • 大规模智能体行为数据合成:为了支持 CPT,作者围绕智能体工作流的完整生命周期合成数据,如下图所示。

一个典型的智能体工作流从一个问题开始,通过“反思-行动”的循环迭代,最终收敛到解决方案。为全面捕捉此过程,他们为构成智能体操作周期的几个关键步骤合成了数据:

  1. 问题合成(Question Synthesis):基于一个持续更新的、以实体为中心的开放世界知识库(包含网络爬取数据和智能体交互轨迹),采样实体及其相关知识,生成嵌入了特定行为模式(如多跳推理、数值计算)的多样化问题。
  2. 规划行动(Planning Action):规划指的是问题分解和第一步行动预测。作者使用开源模型来为合成的问题分析、分解和预测初始行动,并利用问题构建时使用的实体和知识进行拒绝采样,以保证高质量的规划输出。
  3. 推理行动(Reasoning Action):当外部工具返回大量非结构化信息时,模型能否从中提炼关键知识并构建连贯的推理路径至关重要。给定一个问题及其相关知识,作者引导大模型通过一个两阶段过程生成完整的推理链,并基于推理长度和答案一致性进行双重过滤。
  4. 决策行动(Decision-Making Action):智能体在每一步的思考和行动本质上是一个决策过程。作者显式地对这个过程进行建模。首先,基于已有的演示轨迹,在每一步探索所有可行的行动空间;然后,将原始轨迹重构为保留了原始决策选择的多步决策序列。
  5. 通用函数调用数据合成:通过环境扩展(environment scaling)来系统性地扩展函数调用的数据。他们设计了一个可扩展的框架,能够自动构建异构的、完全模拟的环境,从而系统性地拓宽函数调用场景的覆盖范围。

3.3 智能体后训练

后训练阶段的目标是在一个具备智能体先验的强大基础上,进一步打磨模型的深度研究能力。

高质量数据合成:为了进行 SFT 和 RL,需要更高质量、更具挑战性的数据。作者开发了一个端到端的合成数据生成方案,用于生成复杂的、高不确定性的、超人水平的问答对,如下图所示。

该过程无需人工干预。首先,通过随机游走和网络搜索构建一个高度互联的知识图谱。然后,通过采样知识图谱的子图和子表来生成初始的问题和答案。关键步骤是通过“不确定性注入”来策略性地增加问题的难度(例如,合并具有相似属性的实体)。这种方法有完整的理论框架支撑,将问答难度形式化为一系列可控的“原子操作”,从而可以系统性地增加问题的复杂性。

冷启动的监督微调(SFT for Cold Start)

目标:为 RL 阶段提供一个鲁棒的初始策略。

数据:从合成的高质量问答数据出发,使用高性能的开源模型生成完整的“思考-工具响应”轨迹,再通过严格的拒绝采样协议进行过滤。

混合训练范式:为了增强模型的鲁棒性和泛化能力,SFT 结合了两种不同形式的训练数据:

  1. ReAct 模式:输入是历史状态 ,输出是当前的思考 和工具调用

  2. 上下文管理模式:输入是上一步的轨迹摘要 、工具调用 和工具响应 ,输出是当前步骤的轨迹摘要 、思考 和工具调用 。这种面向合成的训练能增强模型在长轨迹中进行状态分析和战略决策的能力。

训练策略:采用基于上下文长度的两阶段训练策略。第一阶段上下文长度设为 40K,第二阶段扩展到 128K。

智能体强化学习(Agentic RL)

框架:为了在复杂的网页环境中实现更鲁棒和可靠的规划与搜索,该研究应用了 Agentic RL 框架。在此框架中,模型对一个任务进行完整的尝试(一次“rollout”),如果最终答案与标准答案匹配,则获得奖励。

环境

  1. 真实世界环境:集成了多个专用工具,包括搜索(Search)、访问网页(Visit)、Python 解释器(Python Interpreter)、谷歌学术(Google Scholar)和文件解析器(File Parser)。为了保证训练的稳定性,他们开发了一个统一的沙箱,对所有工具调用进行集中调度和管理,实施了包括 QPS 速率限制、结果缓存、自动超时重试、服务降级和备份 API 无缝故障切换等机制。
  2. 模拟环境:直接使用真实世界的 Web API 存在很多实际问题。作者首先基于 2024 年的维基百科数据库构建了一个离线环境,并开发了一套本地的 RAG 工具来模拟网络环境。

RL 训练算法:算法是 GRPO 的一个定制化版本。其目标函数为:

其中, 是重要性采样率, 是优势估计器:

算法修改与选择

  1. 严格的 On-Policy:轨迹始终使用最新的策略进行采样,确保学习信号与模型当前能力相关。
  2. 纯粹的 0/1 奖励:答案正确奖励为 1,错误为 0。不引入格式奖励,因为 SFT 阶段已保证模型熟悉输出格式。
  3. Token 级策略梯度损失:在训练目标中应用了 token 级别的策略梯度损失。
  4. 稳定性措施:为减少优势估计的方差,采用了 leave-one-out 策略。此外,为避免训练不稳定和策略崩溃,选择性地排除了某些负面样本(例如,因超出长度限制而没有产生最终答案的样本)。作者强调,这些修改的主要动机不是算法创新,而是追求更高效和稳定的训练范式。

自动化数据筛选:为了通过自我探索泛化到分布外场景,RL 过程中采用了一个全自动的数据筛选流水线,根据训练动态调整训练集。流程如下:从一个大的数据集 开始,使用初始的 SFT 模型对每个问题进行多次 rollout。筛选出那些模型有时成功、有时失败的问题,构成一个初始的、难度适中的训练集 。在 RL 训练过程中,持续监控 中的问题,如果某个问题对于改进后的模型来说变得过于简单,就将其移除。同时,一个并行的后台进程使用模型的中间检查点在整个原始数据集 上进行采样,识别并收集对当前更强的模型来说难度适中的新问题。当训练达到某个步数或奖励停滞时,就用这些新的、有挑战性的问题来刷新训练集

3.4 模型合并

在流程的最后阶段,采用了模型合并技术。当不同的模型变体都源自同一个预训练模型时,它们的参数可以通过平均或插值有效结合。他们选择几个具有不同能力偏好的模型变体,通过对其参数进行加权平均来创建最终的合并模型:

其中 是第 个模型变体的参数, 是其对应的合并权重。

4. 实验

4.1 实验设置

  • 对比系统:实验比较了两类系统:1) 基于 LLM 的 ReAct 智能体,包括 GLM-4.5, Kimi-K2, DeepSeek-V3.1, Claude-4-Sonnet, OpenAI o3/o4-mini;2) 端到端的深度研究智能体,包括 OpenAI DeepResearch, Gemini DeepResearch, Kimi Researcher。
  • 评测基准:涵盖了七个公开的信息寻求基准,包括 Humanity's Last Exam, BrowseComp, BrowseComp-ZH, GAIA, xbench-DeepSearch, WebWalkerQA, FRAMES, 以及一个新发布的 xbench-DeepSearch-2510。
  • 评估参数:为保证稳定性和可复现性,采用了固定的推理参数(temperature=0.85, repetition penalty=1.1, top-p=0.95),每个任务最多允许 128 次工具调用,上下文长度限制为 128K。每个基准独立评估三次,报告平均性能(Avg@3)。

4.2 主要结果

实验结果显示,通义 DeepResearch 在几乎所有评估的基准上都取得了最高的得分,展现了在英文和中文任务上的泛化能力。它在性能上超过了包括 OpenAI o3 和 DeepSeek-V3.1 在内的开源和闭源商业系统。值得注意的是,这些性能是在每个 token 仅激活 3.3B 参数的条件下实现的,突显了模型的效率和可扩展性。总体而言,通义 DeepResearch 为开源深度研究智能体设立了一个新的性能水平。

4.3 重型模式 (Heavy Mode)

为了进一步释放深度研究智能体的潜力,作者引入了“重型模式(Heavy Mode)”,通过一种“研究-综合(Research-Synthesis)”框架来利用测试时计算扩展。

  • 并行研究阶段:部署 个并行的智能体,每个智能体都遵循上下文管理范式,但通过不同的工具使用和推理策略探索多样化的解决路径。每个智能体 独立处理问题 ,并产出一个最终报告和答案:


  • 综合集成阶段:一个综合模型将所有并行的发现进行整合,以产生最终的答案:


该方法的优势在于上下文管理报告 的压缩性,使得综合模型可以在一个可管理的上下文窗口内评估 个多样化的解决方案。

如上图所示,重型模式在 Humanity's Last Exam (38.3%) 和 BrowseComp-ZH (58.1%) 上取得了当前最佳性能,同时在 BrowseComp (58.3%) 上保持了很强的竞争力。

4.4 深度分析

  • Pass@1 与 Pass@3 性能:下图展示了 Avg@3, Pass@1 和 Pass@3 的细粒度分析。结果表明,尽管评估环境动态复杂,最终的 Avg@3 结果与 Pass@1(三次运行中的最佳结果)的结果趋势一致,显示了其研究方法的鲁棒性。
  • 训练奖励与熵:如下图所示,智能体的性能(奖励)随着训练呈现出清晰且显著的上升趋势,证实了策略学习的有效性。同时,策略熵在短暂的初始增加后收敛到一个稳定的值,避免了崩溃和爆炸。这为他们在环境设计和算法修改方面的贡献提供了有力的证据。
  • RL 的上下文长度:作者分析了 32k, 48k, 和 64k 上下文限制对 RL 训练过程的影响。如下图左侧所示,所有三个模型都表现出稳定有效的策略学习,但性能上限不同,这符合预期。一个更有趣的发现出现在下图右侧的平均响应长度上。64k 模型学会了利用其扩展的上下文来构建更详尽的解决方案。而 32k 模型的响应长度呈现出明显的下降趋势。这揭示了一个深刻的洞见:对于一个上下文受限的模型,在一个为能力更强的模型设计的课程上进行 RL 训练,可以迫使其发现更高效的解决方案。因为尝试那些最优解超过其上下文长度的问题很可能会得到零奖励,这为模型创造了一个强大的隐式激励,去发现更简洁、更有效的行动序列。
  • 交互与环境

    • 交互轮次扩展:下图 (a) 展示了 BrowseComp 数据集上的扩展曲线,随着上下文长度和交互次数的增加,模型的性能持续提升。
    • 从模拟到现实:下图 (b) 展示了在模拟 Wiki 环境中的奖励曲线。这条曲线与真实环境中的奖励曲线(图 8)高度相似。这表明模拟环境可以作为一个有效的“风洞实验室”,用于快速的算法迭代,显著提高了开发效率。
  • 通用基准性能:在三个通用基准 AIME25, HMMT25 和 SimpleQA 上的评估结果表明,通义 DeepResearch 相比仅依赖推理而无工具使用的基础模型有显著提升。这得益于搜索能力和 Python 解释器的原生计算支持。

5. 讨论与未来展望

  • 局限性:作者承认了当前工作的一些局限性,包括:128K 的上下文长度对于最复杂的长时程任务仍然不足;尚未发布更大规模的模型;报告生成的保真度还有待提升;RL 框架的效率可以通过部分 rollout 等技术进一步改进;当前的训练专注于特定的提示指令和预定义的工具集。
  • 模型规模:该工作认为,在相对较小的模型上训练智能体能力具有很高的价值,因为小模型更易于部署,能够拓宽在不同现实场景中的可及性。
  • 未来工作:研究团队的长期目标是从特定领域的智能体演进到通用目的的智能体,能够以最少的人类监督在多样化的领域中自主地推理、规划和行动。为此,他们正在开发下一代智能体基础模型(agent foundation model)

6. 实践启示

不要直接在通用底座上微调 Agent:直接在通用大模型上进行 SFT 和 RL,相当于让模型同时学习“如何成为 Agent”和“如何做好特定任务”,这增加了优化难度。单独设立一个“智能体持续预训练(Agentic CPT)”阶段。这个阶段的目标不是对齐或解决特定任务,而是向模型中注入智能体行为的归纳偏置 (Inductive Bias)。数据上可以用大规模、但质量要求可以稍低的智能体行为数据,例如工具调用日志、ReAct 格式的思维链文本、代码执行轨迹等,进行CPT。

分阶段、分目标地合成数据

  • 为 CPT 合成数据:目标是规模和多样性。可以围绕一个知识图谱或实体库,自动生成覆盖不同推理模式(多跳、数值计算等)的问题和对应的行为轨迹(规划、推理、决策)。这个阶段可以容忍一定的噪声。

  • 为 SFT/RL 合成数据:目标是高质量和高难度。需要设计更细致的流程,如报告中提到的“不确定性注入”和“理论框架指导下的难度提升”,确保生成的数据能真正挑战模型的上限。

  • 数据验证的自动化:设计自动化的过滤和验证机制。例如,通过代码执行来验证数值计算的正确性,通过多 Agent 辩论或强模型作为裁判来验证推理逻辑的合理性,通过答案一致性检查来过滤掉劣质推理链。

  • 构建数据飞轮:将训练好的、能力更强的 Agent 模型,反过来投入到数据合成流水线中,去生成更复杂、更优质的新数据。这是一个闭环系统,是实现模型能力持续自我迭代的关键。

稳定压倒一切

  • 简化奖励信号:采用简单的 0/1 成功奖励即可。过于复杂的奖励函数(如格式分、步骤分)不仅设计困难,还可能引入意想不到的偏见。

  • 保持 On-Policy:尽量使用最新的模型策略进行数据采样。虽然 Off-Policy 方法样本效率更高,但对于复杂的 Agent 任务,分布漂移问题会严重破坏训练稳定性。

  • 严格过滤负样本:直接在所有失败的轨迹上进行学习是危险的,可能会导致策略崩溃。应该优先剔除那些“非策略性”的失败样本(如因环境错误、超时导致的失败),只在模型本可以做对但没做对的“有价值”的负样本上学习。

自动化课程学习

  • 动态调整训练集:RL 训练的核心挑战之一是,随着模型变强,旧的数据会变得“太简单”,失去学习价值。必须构建一个动态数据筛选和更新的机制。

往期文章: