• 论文标题:MiMo-V2-Flash Technical Report
  • 论文链接:https://arxiv.org/pdf/2601.02780

TL;DR

小米 LLM-Core 团队近期发布了 MiMo-V2-Flash 技术报告。

核心技术要点:

  1. 架构创新:采用混合注意力机制,以 5:1 的比例交替使用滑动窗口注意力(SWA,窗口大小仅 128)和全局注意力(GA),并引入可学习的 Attention Sink Bias,在大幅降低 KV Cache 的同时维持了长文性能。
  2. 多 token 预测 (MTP) :引入轻量级 MTP 模块作为推测解码的草稿模型,在推理阶段实现了最高 2.6 倍的加速。
  3. MOPD 后训练范式:提出“多教师在线蒸馏”(Multi-Teacher On-Policy Distillation),通过三个阶段(通用 SFT -> 领域专家 RL -> 学生模型 MOPD)解决了传统模型合并中的能力互斥问题,使单一模型能同时掌握多个领域专家模型的巅峰能力。
  4. 基础设施:引入 Rollout Routing Replay (R3) 解决 MoE 在 RL 训练中的路由不一致问题,并构建了支持大规模 Agent 训练的仿真环境。

1. 引言

在大语言模型(LLM)向通用人工智能(AGI)演进的过程中,推理链(Reasoning Chains)和自主 Agent 工作流是两个关键驱动力。然而,构建可扩展的推理模型和 Agent 面临着一个共同的瓶颈:长上下文建模必须兼顾速度与性能。

MiMo-V2-Flash 通过 MoE 架构减少计算量,通过极度激进的滑动窗口注意力机制降低显存占用,并通过多 Token 预测(MTP)加速训练和推理。特别是在后训练阶段,该报告详细阐述了如何通过大规模强化学习(RL)和一种新的蒸馏范式(MOPD)来提升模型的综合能力。

2. 模型架构:效率与性能的权衡

MiMo-V2-Flash 基于标准的 Transformer 架构,但在注意力机制和前馈网络(FFN)的设计上进行了显著的优化。

2.1 整体参数配置

  • 总参数量:309B
  • 激活参数量:15B
  • 层数:48 层 Transformer Block
  • 隐藏层维度:4096
  • MoE 配置

    • 除第一层外,其余层均采用稀疏 MoE FFN。
    • 专家总数:256
    • 每 Token 激活专家数:8
    • 专家中间维度:2048
    • 路由机制:无共享专家(No shared experts)
  • 第一层设计:使用全局注意力(GA)和密集 FFN(Dense FFN),用于稳定早期表征学习。

2.2 混合滑动窗口注意力架构 (Hybrid SWA)

为了缓解全注意力机制带来的 复杂度,MiMo-V2-Flash 采用了一种混合注意力架构,交替堆叠滑动窗口注意力(SWA)和全局注意力(GA)。

2.2.1 激进的窗口设计与混合比例

  • 混合比例:每 5 层 SWA 后接 1 层 GA(5:1)。
  • 窗口大小。这是一个非常小的窗口设置,相比于常见的 4096 或 2048 窗口,这种设计可以极大地减少 KV Cache 的显存占用和注意力计算量。

2.2.2 可学习的 Attention Sink Bias

先前的研究(如 Gemma Team)表明,过小的滑动窗口或过高的 SWA:GA 比例会导致模型性能下降,特别是在长上下文任务中。为了解决这一问题,MiMo-V2-Flash 引入了可学习的 Attention Sink Bias(注意力汇聚偏置)。

其核心思想是在 Softmax 分母中引入一个可学习的项,允许模型在不需要关注当前窗口内 Token 时,将注意力分配给一个虚拟的 Sink,从而避免强制关注不相关的局部信息。

具体公式如下:

分别为 token 的查询向量和 token 的键向量, 为头维度。单头的注意力 logits 计算为:

引入可学习标量 作为偏置,注意力权重 计算如下:

其中 是为了数值稳定性引入的最大值项:

最终输出为:

2.2.3 架构消融实验分析

报告中的消融实验(见报告中 Table 2 和 Table 3)揭示了两个反直觉但关键的发现:

  1. Attention Sink 的必要性:在 的设置下,如果不加 Sink Bias,模型在 MMLU、GSM8K 等基准上的性能有明显下降。加入 Sink Bias 后,性能恢复甚至超过了全 GA 基线。
  2. 小窗口 (128) 优于大窗口 (512)

    • 在通用基准上, 表现相近。
    • 但在长上下文扩展(Long Context Extension)和长文 SFT 后, 的版本在 GSM-Infinite 和 MRCR 等长文任务上显著优于 版本,也优于全 GA 基线。

原理解读:研究人员假设, 的极小窗口迫使 SWA 层专注于极局部的上下文,作为一种归纳偏置(Inductive Bias),减少了对虚假模式的过拟合。同时,这种强约束迫使模型将长程依赖的处理完全“外包”给 GA 层,导致了更清晰的劳动分工(Division of Labor)。相反, 处于中间地带,导致 SWA 试图处理部分长程依赖但能力不足,模糊了局部与全局的分界线。

2.3 轻量级多 Token 预测 (MTP)

MiMo-V2-Flash 集成了 MTP 模块,不仅为了提升训练效率,更作为一种原生的推测解码(Speculative Decoding)草稿模型。

  • 设计原则:轻量化。MTP 模块不应成为推理瓶颈。
  • 结构

    • 使用 Dense FFN 而非 MoE(减少参数量,单 MTP 块仅 0.33B 参数)。
    • 使用 SWA 而非 GA(减少 KV Cache 开销)。
  • 训练与推理

    • 预训练时使用单个 MTP 头。
    • 后训练阶段,将该头复制 次形成 步 MTP 模块,联合训练。
    • 推理时,MTP 模块并行生成 Draft Tokens,主模型并行验证,从而在不增加 KV Cache I/O 的情况下提升算术强度(Arithmetic Intensity),实现 Token 级并行。

3. 预训练:从 32K 到 256K 的演进

预训练数据量达到 27T tokens,数据处理流程强调长文网页文档和高质量代码库(包括 commit history, issues 等)。

3.1 数据调度器 (Data Scheduler)

预训练分为三个阶段,逐步提升上下文长度和推理能力:

  1. 阶段 1 (0 - 22T)

    • 目标:通用基础能力。
    • 上下文:原生 32K 长度。
    • 设置:RoPE base frequency = 640,000 (GA) / 10,000 (SWA)。
  2. 阶段 2 (22 - 26T)

    • 目标:强化逻辑推理和代码能力。
    • 数据变化:上采样以代码为中心的数据,加入约 5% 的合成推理数据。
  3. 阶段 3 (26 - 27T)

    • 目标:长上下文扩展。
    • 上下文:扩展至 256K
    • 数据变化:上采样具有长依赖关系的数据。
    • 设置:RoPE base frequency 调整为 5,000,000 (GA)。

3.2 混合精度训练

采用类似于 DeepSeek-V3 的 FP8 混合精度框架:

  • BF16:保留给 Attention 输出投影、Embedding、输出头参数。
  • FP32:MoE 路由参数(保证路由稳定性)。
  • FP8:其他大部分计算。

4. 后训练:多教师在线蒸馏 (MOPD)

这是 MiMo-V2-Flash 最核心的创新部分。目前的后训练流水线面临两大挑战:

  1. 能力不平衡 (Capability Imbalance):提升某项能力(如数学)往往导致其他能力(如通用对话)下降,即“跷跷板效应”。
  2. 学习效率低下:单一模型难以同时从多个异构数据源中高效学习。

为此,MiMo-V2-Flash 提出了 MOPD (Multi-Teacher On-Policy Distillation) 范式,包含三个阶段。

4.1 第一阶段:有监督微调 (SFT)

SFT 的目标是激活模型的基础指令遵循能力。

MoE 训练的稳定性监控
报告提出利用 num-zeros (梯度为零的参数数量)作为监控 MoE 负载均衡和过拟合的关键指标。

  • num-zeros 增加:意味着专家负载严重不平衡。
  • num-zeros 减少:意味着模型正在过拟合。
  • 稳定性控制:为了保持 num-zeros 稳定,AdamW 的 被设置为 ,MoE expert bias update rate 设为

4.2 第二阶段:领域专家模型的构建 (Domain-Specialized Training)

与其试图训练一个全能模型,不如先训练多个在特定领域达到巅峰的“教师模型”。这些教师模型通过特定领域的 RL 进行优化。

4.2.1 非 Agent 类 RL (Non-Agentic RL)

针对单轮推理任务(数学、代码、逻辑)。

  • 奖励信号

    • 客观任务(数学/代码):程序化验证 + LLM Judge。
    • 主观任务(安全性/有用性):基于详细评分标准的 LLM Judge。

4.2.2 Agent 类 RL (Agentic RL)

针对多轮交互环境,强调规划和工具使用。MiMo-V2-Flash 构建了多样化的 Agent 训练环境:

  • Code Agent:基于 GitHub Issues,涉及文件读写、命令执行。构建了包含 100k+ 任务的轻量级 Agent 脚手架。
  • Terminal Agent:基于 Stack Overflow,涉及 Docker 环境下的复杂运维操作。
  • Web Development Agent:基于网页生成与 Playwright 视觉验证。
  • General Agent:基于搜索和知识图谱扩展的通用任务。

这一阶段产生了一系列在各自领域(如 AIME 数学竞赛、SWE-Bench 代码工程)表现优异的教师模型。

4.3 第三阶段:多教师在线蒸馏 (MOPD)

这是将专家能力融合回统一学生模型的关键步骤。

核心理念:不是简单的参数合并(Parameter Merging),也不是离线数据蒸馏,而是将多教师知识融合形式化为一个在线强化学习 (On-Policy RL) 过程。学生模型从自身的采样分布中学习,并接受来自领域专家的 Token 级监督。

4.3.1 数学形式化

为学生策略, 为针对提示词 所在领域的专家教师策略。

反向 KL 散度损失 (Reverse KL Loss) 定义为:

MOPD 的代理损失 (Surrogate Loss)
类似于 PPO,MOPD 引入了重要性采样和截断机制:

其中 是基于重要性比率(Importance Ratio)的截断系数(类似 PPO 的 clip),而优势函数(Advantage) 定义为学生与教师 Logits 的对数差:

结合结果奖励 (Outcome Rewards)
MOPD 可以无缝结合基于结果的奖励模型(ORM),例如 GRPO。最终的优势函数为:

4.3.2 MOPD 的优势

  1. 解决能力互斥:表 7 显示,MOPD 后的学生模型在 AIME(数学)、LiveCodeBench(代码)等任务上不仅没有下降,反而接近或超过了最佳教师模型的性能。
  2. 避免分布偏移:由于是 On-Policy 的(在学生模型生成的样本上计算教师的 Logits),避免了离线蒸馏中的 Exposure Bias。
  3. 模块化与可扩展性:可以灵活加入新的领域教师,甚至学生模型本身也可以经过新一轮 RL 成为下一代的教师,形成“迭代协同进化”(Iterative Co-Evolution)。

5. RL 基础设施与工程优化

为了支撑大规模 MoE 的 RL 训练,技术报告披露了几个关键的基础设施优化。

5.1 Rollout Routing Replay (R3)

问题:MoE 模型在推理(Rollout)和训练(Train)阶段,由于数值精度(BF16 vs FP32)、并行切分方式的不同,可能导致对同一输入的专家路由(Router)选择不一致。这会导致 RL 训练不稳定,因为策略更新不仅改变了概率,还隐式改变了生效的模型参数子集。

解决方案 R3
记录推理阶段选中的专家索引,并在训练反向传播时强制重用这些专家路由。这消除了路由的不确定性,使得 RL 训练更加稳定。小米团队通过优化数据类型和通信重叠,使这一机制的额外开销几乎可以忽略不计。

5.2 数据调度器 (Data Scheduler) 与部分采样

针对 RL 训练中不同任务生成长度差异极大导致的 GPU 空闲(Straggler)问题:

  1. 细粒度序列调度:不再以 Micro-batch 为单位,而是以序列为单位调度。
  2. 部分 Rollout (Partial Rollout) :将过长的轨迹(Trajectory)切分为多个步骤进行,配合“陈旧度感知的截断重要性采样”(Staleness-aware truncated importance sampling)来修正因数据滞后带来的偏差。

5.3 附录中的上下文管理 (Context Management)

针对 Agent 任务中无限增长的上下文,报告在附录 C 中提到了一种 Unix 风格的抽象:

  • Context Augmentation:将工具、文档、数据库统一抽象为文件,允许模型通过 Bash 命令检索。
  • Context Consolidation:对抗“Lost in the Middle”。当上下文利用率低时,系统强制模型生成摘要,将历史归档为文件,并在上下文中清除。实验表明,这种“少即是多”的策略在 Deep Research 类任务上提升了 5-10% 的准确率。

6. 性能评估

6.1 通用与推理能力

在 MMLU-Pro, GPQA-Diamond, AIME 2025 等基准上,MiMo-V2-Flash (309B/15B Active) 展现了与 DeepSeek-V3.2 (671B/37B Active) 和 Kimi-K2 相当的竞争力。

特别值得注意的是 SWE-Bench Verified(软件工程 Agent 任务):

  • MiMo-V2-Flash 达到 73.4% 的解决率。
  • SWE-Bench Multilingual 达到 71.7%
  • 这确立了其作为当前最强开源代码 Agent 模型的地位,性能接近 GPT-5-High(报告中引用的基准)。

6.2 长上下文能力

得益于混合 SWA 架构:

  • NIAH-Multi (大海捞针) 测试中,从 32K 到 256K 均保持近乎 100% 的成功率。
  • GSM-Infinite (超长文数学推理) 中,从 16K 到 128K 的性能衰减极小。相比之下,DeepSeek-V3.2-Exp(全注意力/稀疏注意力)在 64K 和 128K 长度下出现了显著的性能下降。这证明了 混合注意力在处理噪声和长程依赖上的鲁棒性。

6.3 MTP 加速效果

报告分析了 MTP 的接受长度(Acceptance Length)与 Token 熵(Entropy)的关系(图 7)。

  • 在确定性高的任务(如 WebDev 代码生成)中,平均接受长度可达 3.6 tokens。
  • 在不确定性高的任务(如 MMLU Pro)中,接受长度较短。
  • 推理加速:使用 3 层 MTP,在不同 Batch Size 下可实现 1.8x 到 2.6x 的解码加速(表 10)。

7. 结论

MiMo-V2-Flash 技术报告展示了小米在高效大模型领域的深入探索。其核心贡献不仅在于训练了一个高性能的 MoE 模型,更在于提出了一套完整的“效率-能力”协同方案:

  1. 架构侧:证明了极度稀疏的混合滑动窗口注意力(SWA W=128)配合 Attention Sink,可以在不损失长文能力的前提下大幅降低开销。
  2. 训练侧:MOPD 范式为解决多任务能力平衡提供了一个优雅的 On-Policy RL 解法,使得模型能够吸收多个领域专家的长板。
  3. 工程侧:MTP 和 R3 等技术的应用,确保了从训练到推理的全流程高效与稳定。

尽管在绝对知识容量(如 SimpleQA)上,受限于 15B 的激活参数量,该模型与超大规模模型仍有差距,但在推理、代码和 Agent 任务上,MiMo-V2-Flash 已经证明了“小”参数量(Active Params)也能实现强性能。

更多细节请阅读原文。


往期文章: