论文标题：MiMo-V2-Flash Technical Report
论文链接：https://arxiv.org/pdf/2601.02780

TL;DR

小米 LLM-Core 团队近期发布了 MiMo-V2-Flash 技术报告。

核心技术要点：

架构创新：采用混合注意力机制，以 5:1 的比例交替使用滑动窗口注意力（SWA，窗口大小仅 128）和全局注意力（GA），并引入可学习的 Attention Sink Bias，在大幅降低 KV Cache 的同时维持了长文性能。
多 token 预测 (MTP) ：引入轻量级 MTP 模块作为推测解码的草稿模型，在推理阶段实现了最高 2.6 倍的加速。
MOPD 后训练范式：提出“多教师在线蒸馏”（Multi-Teacher On-Policy Distillation），通过三个阶段（通用 SFT -> 领域专家 RL -> 学生模型 MOPD）解决了传统模型合并中的能力互斥问题，使单一模型能同时掌握多个领域专家模型的巅峰能力。
基础设施：引入 Rollout Routing Replay (R3) 解决 MoE 在 RL 训练中的路由不一致问题，并构建了支持大规模 Agent 训练的仿真环境。

1. 引言

在大语言模型（LLM）向通用人工智能（AGI）演进的过程中，推理链（Reasoning Chains）和自主 Agent 工作流是两个关键驱动力。然而，构建可扩展的推理模型和 Agent 面临着一个共同的瓶颈：长上下文建模必须兼顾速度与性能。

MiMo-V2-Flash 通过 MoE 架构减少计算量，通过极度激进的滑动窗口注意力机制降低显存占用，并通过多 Token 预测（MTP）加速训练和推理。特别是在后训练阶段，该报告详细阐述了如何通过大规模强化学习（RL）和一种新的蒸馏范式（MOPD）来提升模型的综合能力。

2. 模型架构：效率与性能的权衡

MiMo-V2-Flash 基于标准的 Transformer 架构，但在注意力机制和前馈网络（FFN）的设计上进行了显著的优化。

2.1 整体参数配置

总参数量：309B
激活参数量：15B
层数：48 层 Transformer Block
隐藏层维度：4096
MoE 配置：
- 除第一层外，其余层均采用稀疏 MoE FFN。
- 专家总数：256
- 每 Token 激活专家数：8
- 专家中间维度：2048
- 路由机制：无共享专家（No shared experts）
第一层设计：使用全局注意力（GA）和密集 FFN（Dense FFN），用于稳定早期表征学习。

2.2 混合滑动窗口注意力架构 (Hybrid SWA)

为了缓解全注意力机制带来的复杂度，MiMo-V2-Flash 采用了一种混合注意力架构，交替堆叠滑动窗口注意力（SWA）和全局注意力（GA）。

2.2.1 激进的窗口设计与混合比例

混合比例：每 5 层 SWA 后接 1 层 GA（5:1）。
窗口大小：。这是一个非常小的窗口设置，相比于常见的 4096 或 2048 窗口，这种设计可以极大地减少 KV Cache 的显存占用和注意力计算量。

2.2.2 可学习的 Attention Sink Bias

先前的研究（如 Gemma Team）表明，过小的滑动窗口或过高的 SWA:GA 比例会导致模型性能下降，特别是在长上下文任务中。为了解决这一问题，MiMo-V2-Flash 引入了可学习的 Attention Sink Bias（注意力汇聚偏置）。

其核心思想是在 Softmax 分母中引入一个可学习的项，允许模型在不需要关注当前窗口内 Token 时，将注意力分配给一个虚拟的 Sink，从而避免强制关注不相关的局部信息。

具体公式如下：

设和分别为 token 的查询向量和 token 的键向量，为头维度。单头的注意力 logits 计算为：

引入可学习标量作为偏置，注意力权重计算如下：

其中是为了数值稳定性引入的最大值项：

最终输出为：

2.2.3 架构消融实验分析

报告中的消融实验（见报告中 Table 2 和 Table 3）揭示了两个反直觉但关键的发现：

Attention Sink 的必要性：在的设置下，如果不加 Sink Bias，模型在 MMLU、GSM8K 等基准上的性能有明显下降。加入 Sink Bias 后，性能恢复甚至超过了全 GA 基线。
小窗口 (128) 优于大窗口 (512) ：
- 在通用基准上，与表现相近。
- 但在长上下文扩展（Long Context Extension）和长文 SFT 后，的版本在 GSM-Infinite 和 MRCR 等长文任务上显著优于版本，也优于全 GA 基线。

原理解读：研究人员假设，的极小窗口迫使 SWA 层专注于极局部的上下文，作为一种归纳偏置（Inductive Bias），减少了对虚假模式的过拟合。同时，这种强约束迫使模型将长程依赖的处理完全“外包”给 GA 层，导致了更清晰的劳动分工（Division of Labor）。相反，处于中间地带，导致 SWA 试图处理部分长程依赖但能力不足，模糊了局部与全局的分界线。

2.3 轻量级多 Token 预测 (MTP)

MiMo-V2-Flash 集成了 MTP 模块，不仅为了提升训练效率，更作为一种原生的推测解码（Speculative Decoding）草稿模型。

设计原则：轻量化。MTP 模块不应成为推理瓶颈。
结构：
- 使用 Dense FFN 而非 MoE（减少参数量，单 MTP 块仅 0.33B 参数）。
- 使用 SWA 而非 GA（减少 KV Cache 开销）。
训练与推理：
- 预训练时使用单个 MTP 头。
- 后训练阶段，将该头复制次形成步 MTP 模块，联合训练。
- 推理时，MTP 模块并行生成 Draft Tokens，主模型并行验证，从而在不增加 KV Cache I/O 的情况下提升算术强度（Arithmetic Intensity），实现 Token 级并行。

3. 预训练：从 32K 到 256K 的演进

预训练数据量达到 27T tokens，数据处理流程强调长文网页文档和高质量代码库（包括 commit history, issues 等）。

3.1 数据调度器 (Data Scheduler)

预训练分为三个阶段，逐步提升上下文长度和推理能力：

阶段 1 (0 - 22T) ：
- 目标：通用基础能力。
- 上下文：原生 32K 长度。
- 设置：RoPE base frequency = 640,000 (GA) / 10,000 (SWA)。
阶段 2 (22 - 26T) ：
- 目标：强化逻辑推理和代码能力。
- 数据变化：上采样以代码为中心的数据，加入约 5% 的合成推理数据。
阶段 3 (26 - 27T) ：
- 目标：长上下文扩展。
- 上下文：扩展至 256K。
- 数据变化：上采样具有长依赖关系的数据。
- 设置：RoPE base frequency 调整为 5,000,000 (GA)。

3.2 混合精度训练

采用类似于 DeepSeek-V3 的 FP8 混合精度框架：

BF16：保留给 Attention 输出投影、Embedding、输出头参数。
FP32：MoE 路由参数（保证路由稳定性）。
FP8：其他大部分计算。

4. 后训练：多教师在线蒸馏 (MOPD)

这是 MiMo-V2-Flash 最核心的创新部分。目前的后训练流水线面临两大挑战：

能力不平衡 (Capability Imbalance)：提升某项能力（如数学）往往导致其他能力（如通用对话）下降，即“跷跷板效应”。
学习效率低下：单一模型难以同时从多个异构数据源中高效学习。

为此，MiMo-V2-Flash 提出了 MOPD (Multi-Teacher On-Policy Distillation) 范式，包含三个阶段。

4.1 第一阶段：有监督微调 (SFT)

SFT 的目标是激活模型的基础指令遵循能力。

MoE 训练的稳定性监控：
报告提出利用 num-zeros （梯度为零的参数数量）作为监控 MoE 负载均衡和过拟合的关键指标。

num-zeros 增加：意味着专家负载严重不平衡。
num-zeros 减少：意味着模型正在过拟合。
稳定性控制：为了保持 num-zeros 稳定，AdamW 的被设置为，MoE expert bias update rate 设为。

4.2 第二阶段：领域专家模型的构建 (Domain-Specialized Training)

与其试图训练一个全能模型，不如先训练多个在特定领域达到巅峰的“教师模型”。这些教师模型通过特定领域的 RL 进行优化。

4.2.1 非 Agent 类 RL (Non-Agentic RL)

针对单轮推理任务（数学、代码、逻辑）。

奖励信号：
- 客观任务（数学/代码）：程序化验证 + LLM Judge。
- 主观任务（安全性/有用性）：基于详细评分标准的 LLM Judge。

4.2.2 Agent 类 RL (Agentic RL)

针对多轮交互环境，强调规划和工具使用。MiMo-V2-Flash 构建了多样化的 Agent 训练环境：

Code Agent：基于 GitHub Issues，涉及文件读写、命令执行。构建了包含 100k+ 任务的轻量级 Agent 脚手架。
Terminal Agent：基于 Stack Overflow，涉及 Docker 环境下的复杂运维操作。
Web Development Agent：基于网页生成与 Playwright 视觉验证。
General Agent：基于搜索和知识图谱扩展的通用任务。

这一阶段产生了一系列在各自领域（如 AIME 数学竞赛、SWE-Bench 代码工程）表现优异的教师模型。

4.3 第三阶段：多教师在线蒸馏 (MOPD)

这是将专家能力融合回统一学生模型的关键步骤。

核心理念：不是简单的参数合并（Parameter Merging），也不是离线数据蒸馏，而是将多教师知识融合形式化为一个在线强化学习 (On-Policy RL) 过程。学生模型从自身的采样分布中学习，并接受来自领域专家的 Token 级监督。

4.3.1 数学形式化

设为学生策略，为针对提示词所在领域的专家教师策略。

反向 KL 散度损失 (Reverse KL Loss) 定义为：

MOPD 的代理损失 (Surrogate Loss) ：
类似于 PPO，MOPD 引入了重要性采样和截断机制：

其中是基于重要性比率（Importance Ratio）的截断系数（类似 PPO 的 clip），而优势函数（Advantage）定义为学生与教师 Logits 的对数差：

结合结果奖励 (Outcome Rewards) ：
MOPD 可以无缝结合基于结果的奖励模型（ORM），例如 GRPO。最终的优势函数为：

4.3.2 MOPD 的优势

解决能力互斥：表 7 显示，MOPD 后的学生模型在 AIME（数学）、LiveCodeBench（代码）等任务上不仅没有下降，反而接近或超过了最佳教师模型的性能。
避免分布偏移：由于是 On-Policy 的（在学生模型生成的样本上计算教师的 Logits），避免了离线蒸馏中的 Exposure Bias。
模块化与可扩展性：可以灵活加入新的领域教师，甚至学生模型本身也可以经过新一轮 RL 成为下一代的教师，形成“迭代协同进化”（Iterative Co-Evolution）。

5. RL 基础设施与工程优化

为了支撑大规模 MoE 的 RL 训练，技术报告披露了几个关键的基础设施优化。

5.1 Rollout Routing Replay (R3)

问题：MoE 模型在推理（Rollout）和训练（Train）阶段，由于数值精度（BF16 vs FP32）、并行切分方式的不同，可能导致对同一输入的专家路由（Router）选择不一致。这会导致 RL 训练不稳定，因为策略更新不仅改变了概率，还隐式改变了生效的模型参数子集。

解决方案 R3：
记录推理阶段选中的专家索引，并在训练反向传播时强制重用这些专家路由。这消除了路由的不确定性，使得 RL 训练更加稳定。小米团队通过优化数据类型和通信重叠，使这一机制的额外开销几乎可以忽略不计。

5.2 数据调度器 (Data Scheduler) 与部分采样

针对 RL 训练中不同任务生成长度差异极大导致的 GPU 空闲（Straggler）问题：

细粒度序列调度：不再以 Micro-batch 为单位，而是以序列为单位调度。
部分 Rollout (Partial Rollout) ：将过长的轨迹（Trajectory）切分为多个步骤进行，配合“陈旧度感知的截断重要性采样”（Staleness-aware truncated importance sampling）来修正因数据滞后带来的偏差。

5.3 附录中的上下文管理 (Context Management)

针对 Agent 任务中无限增长的上下文，报告在附录 C 中提到了一种 Unix 风格的抽象：

Context Augmentation：将工具、文档、数据库统一抽象为文件，允许模型通过 Bash 命令检索。
Context Consolidation：对抗“Lost in the Middle”。当上下文利用率低时，系统强制模型生成摘要，将历史归档为文件，并在上下文中清除。实验表明，这种“少即是多”的策略在 Deep Research 类任务上提升了 5-10% 的准确率。

6. 性能评估

6.1 通用与推理能力

在 MMLU-Pro, GPQA-Diamond, AIME 2025 等基准上，MiMo-V2-Flash (309B/15B Active) 展现了与 DeepSeek-V3.2 (671B/37B Active) 和 Kimi-K2 相当的竞争力。

特别值得注意的是 SWE-Bench Verified（软件工程 Agent 任务）：

MiMo-V2-Flash 达到 73.4% 的解决率。
SWE-Bench Multilingual 达到 71.7% 。
这确立了其作为当前最强开源代码 Agent 模型的地位，性能接近 GPT-5-High（报告中引用的基准）。

6.2 长上下文能力

得益于混合 SWA 架构：

在 NIAH-Multi (大海捞针) 测试中，从 32K 到 256K 均保持近乎 100% 的成功率。
在 GSM-Infinite (超长文数学推理) 中，从 16K 到 128K 的性能衰减极小。相比之下，DeepSeek-V3.2-Exp（全注意力/稀疏注意力）在 64K 和 128K 长度下出现了显著的性能下降。这证明了混合注意力在处理噪声和长程依赖上的鲁棒性。

6.3 MTP 加速效果

报告分析了 MTP 的接受长度（Acceptance Length）与 Token 熵（Entropy）的关系（图 7）。

在确定性高的任务（如 WebDev 代码生成）中，平均接受长度可达 3.6 tokens。
在不确定性高的任务（如 MMLU Pro）中，接受长度较短。
推理加速：使用 3 层 MTP，在不同 Batch Size 下可实现 1.8x 到 2.6x 的解码加速（表 10）。

7. 结论

MiMo-V2-Flash 技术报告展示了小米在高效大模型领域的深入探索。其核心贡献不仅在于训练了一个高性能的 MoE 模型，更在于提出了一套完整的“效率-能力”协同方案：

架构侧：证明了极度稀疏的混合滑动窗口注意力（SWA W=128）配合 Attention Sink，可以在不损失长文能力的前提下大幅降低开销。
训练侧：MOPD 范式为解决多任务能力平衡提供了一个优雅的 On-Policy RL 解法，使得模型能够吸收多个领域专家的长板。
工程侧：MTP 和 R3 等技术的应用，确保了从训练到推理的全流程高效与稳定。

尽管在绝对知识容量（如 SimpleQA）上，受限于 15B 的激活参数量，该模型与超大规模模型仍有差距，但在推理、代码和 Agent 任务上，MiMo-V2-Flash 已经证明了“小”参数量（Active Params）也能实现强性能。

更多细节请阅读原文。

往期文章：

小米 MiMo-V2-Flash 技术报告：MoE 架构、混合注意力机制与多教师在线蒸馏

TL;DR

1. 引言

2. 模型架构：效率与性能的权衡

2.1 整体参数配置