清华&美团首次揭秘MoE：从“Massive Activations”到“Attention Sink”，探寻“超级专家”的机制

稀疏激活的混合专家模型（Mixture-of-Experts, MoE）已成为推动大型语言模型（LLM）能力边界的关键架构。然而，其庞大的参数量给实际部署带来了巨大挑战。近期，一篇来自清华大学和美团的研究论文《Unveiling Super Experts in Mixture-of-Experts Large Language Models》首次揭示了 MoE 模型中存在一类被称为“超级专家”（Super Experts, SEs）的特殊专家子集。这些数量极少但作用至关重要的专家，为我们理解 MoE 的工作机制、优化模型压缩策略提供了全新的视角。

论文标题：Unveiling Super Experts in Mixture-of-Experts Large Language Models
论文链接：https://arxiv.org/pdf/2507.23279

1. 引言：MoE 模型的崛起与困境

1.1 什么是 MoE 模型？

近年来，大型语言模型（LLMs）的发展日新月异，其强大的能力正在深刻地改变着世界。然而，随着模型能力的提升，其参数量也呈指数级增长，这给模型的训练和推理带来了巨大的计算压力。为了在提升模型性能的同时有效控制计算成本，研究者们提出了一种名为混合专家模型（Mixture-of-Experts, MoE）的创新架构。

你可以将一个传统的（或称为“密集”的）LLM 想象成一个知识渊博但什么都懂一点的“通才”。无论你问他什么问题，他都需要调动他全部的知识储备来思考和回答。而 MoE 模型则不同，它像一个由多位“专家”组成的团队。团队里有一位“调度员”（Router，路由网络）和多位各有所长的“专家”（Experts，通常是前馈神经网络 FFN）。当一个问题（输入数据）到来时，“调度员”会迅速判断这个问题属于哪个领域，然后只激活（调用）一两位最相关的专家来协同解决问题。

这种稀疏激活（Sparse Activation） 的机制是 MoE 的核心优势。它意味着，尽管 MoE 模型的总参数量（所有专家的参数总和）可能非常庞大，但在处理任何单个输入时，实际参与计算的参数量（被激活的专家的参数）却相对较小。这就好像一个拥有一万亿参数的 MoE 模型，其计算成本可能只相当于一个一千亿参数的密集模型。这种“用更少的计算撬动更大的模型容量”的特性，使得 MoE 架构在近年来大放异彩，催生了像 Google 的 Switch Transformer、Mistral AI 的 Mixtral 系列以及国内的 DeepSeek、Qwen 等一系列顶尖的开源和闭源模型。

1.2 参数爆炸：MoE 模型的“甜蜜的烦恼”

MoE 架构虽然巧妙地通过稀疏激活降低了计算成本，但它并没有减少模型的存储成本。模型的全部参数，包括所有专家（无论是否被激活）的参数，都需要被完整地加载到内存（通常是 GPU 显存）中才能运行。以拥有 8 个专家的 Mixtral-8x7B 模型为例，虽然每次推理只激活 2 个专家（约 13B 参数），但其总参数量高达 47B，需要消耗大量的显存。

这种巨大的参数量为 MoE 模型的实际部署带来了严峻挑战。高昂的硬件成本、巨大的能源消耗，都限制了这些强大模型在更广泛场景下的应用，尤其是在手机、笔记本电脑等资源受限的边缘设备上。

1.3 模型压缩：为 MoE 模型“瘦身”的迫切需求

为了解决 MoE 模型部署的难题，模型压缩技术应运而生。就像为文件打包以节省硬盘空间一样，模型压缩旨在通过各种技术手段，在尽可能不损失模型性能的前提下，减小模型的尺寸和计算量。常见的压缩技术包括：

量化（Quantization）：降低用于表示模型参数的数值精度（例如，从 32 位浮点数降到 8 位整数）。
知识蒸馏（Knowledge Distillation）：用一个大的“教师模型”来训练一个小的“学生模型”，让学生模型学习教师模型的“知识精华”。
剪枝（Pruning）：移除模型中被认为是“不重要”的参数或结构（如神经元、注意力头、甚至整个网络层）。

针对 MoE 模型的独特结构，研究者们也开发了专家级别的压缩方法。这些方法的核心思想是：并非所有专家都同等重要，我们可以通过识别并压缩那些“次要”的专家来为模型“瘦身”。例如，可以合并（merge）一些功能相似的专家，或者直接剪枝（prune）/跳过（skip）那些访问频率较低的专家。

然而，现有的专家压缩方法大多依赖于一些经验性的标准，比如专家的访问频率、激活值的统计特性等，来判断其重要性。这些方法虽然在一定程度上有效，但它们缺乏对专家异质性（即不同专家扮演着不同角色）的深入理解。一个根本性的问题一直悬而未决：

在 MoE LLM 中，是否存在一个独特的、对模型功能起着决定性作用的专家子集？它们的工作机制是什么？

这正是本文要深度解读的这篇研究的核心问题。来自清华大学和美团的研究团队通过深入的实证分析，给出了一个响亮的回答：是的，存在这样一群专家，他们称之为——超级专家（Super Experts, SEs）。

2. 风暴之眼：探寻“巨量激活”的根源

要理解“超级专家”的发现过程，我们必须先从一个在 LLM 中普遍存在的奇特现象说起——巨量激活（Massive Activations）。

2.1 神秘的“巨量激活”现象

在 2024 年初，一篇名为《Massive Activations in Large Language Models》的论文揭示，在各种 LLM 的内部，存在着一种非常特殊的激活值。在模型进行前向推理的过程中，流经各层神经网络的数值被称为“激活值”。而“巨量激活”指的是，在模型的隐藏状态（可以理解为各层之间的信息流）中，有极少数（通常不到 0.1%）的激活值，其数值大小会比其他绝大多数激活值大上成千上万倍，甚至十万倍。

上图直观地展示了这一现象。可以看到，在模型的不同层（横轴）中，隐藏状态的最大激活值（纵轴）中存在一些远超正常范围的“尖峰”，这些就是“巨量激活”。

进一步的研究发现，这些“巨量激活”并非随机出现，而是具有以下几个有趣的特性：

普遍存在：在各种主流 LLM 中都能观察到。
位置固定：它们通常出现在特定的神经元维度上。
输入不敏感：它们的值基本不随输入文本的变化而改变，表现得像一个固定的偏置项（bias）。
至关重要：如果人为地移除这些“巨量激活”，模型的性能会急剧下降。

这些发现表明，“巨量激活”并非无意义的噪声或异常值，而是模型内部一种深刻且重要的机制。

2.2 MoE 模型中的“巨量激活”：是集体智慧还是个体英雄？

既然“巨量激活”在普通 LLM 中普遍存在，那么在结构更复杂的 MoE LLM 中，情况又会如何呢？这篇论文的研究者们首先验证了，是的，“巨量激活”现象同样存在于所有他们研究的 MoE LLM 中。

这立刻引出了一个更深层次的问题：在 MoE 模型中，“巨量激活”是如何形成的？

是所有被激活的专家共同作用的结果？
还是仅仅由少数几个特定的专家所主导？
或者，它可能与专家无关，而是由模型的其他部分（如注意力模块）产生的？

为了回答这个问题，研究者们对多个主流的开源 MoE 模型（如 Qwen 系列、DeepSeek 系列、Mixtral）进行了深入的“解剖”。他们追踪了模型内部的激活信号流动路径，试图找到“巨量激活”的源头。

3. “超级专家”横空出世：发现与定义

3.1 惊人发现：少数专家主导“巨量激活”

通过对模型内部的细致观察，研究者们有了一个惊人的发现：“巨量激活”的形成，并非所有专家的“集体智慧”，而是由一个极小的专家子集所主导。

这些特殊的专家，在它们的输出（具体来说是 FFN 结构中 down_proj 层的输出）中，会产生一些罕见但数值极其巨大的激活异常值。这些异常值虽然数量稀少，但其“能量”巨大。当它们通过残差连接（residual summation）被加到模型的隐藏状态中时，就形成了我们之前观察到的“巨量激活”现象。

这个过程就像在一个平静的湖水中投入一颗深水炸弹，虽然炸弹本身很小，但它能激起滔天巨浪。

3.2 什么是“超级专家”（Super Experts, SEs）？

基于这一发现，研究者们正式定义了这类特殊的专家，并将其命名为“超级专家”（Super Experts, SEs）。

超级专家（Super Experts, SEs）：在 MoE LLM 中，一个独特的、数量极少的专家子集。它们的特征是在其 down_proj 层的输出中产生罕见但极端的激活异常值，这些异常值通过残差连接注入到解码器层之间的隐藏状态中，从而诱导并形成了“巨量激活”现象。

简而言之，超级专家是“巨量激活”的直接缔造者。

3.3 “超级专家”的工作机制：逐层放大的激活信号

研究者们以 Qwen3-30B-A3B 模型为例，清晰地展示了“超级专家”的工作机制。

如上图所示，这个模型中有三个“超级专家”，分别位于第 1、2、3 层（Expert 68 in Layer 1, Expert 92 in Layer 2, Expert 82 in Layer 3）。

在第 1 层，超级专家 68 产生了第一个显著的激活异常值。
这个异常值被注入到隐藏状态中，并传递给下一层。
在第 2 层，超级专家 92 在接收到这个已经“被污染”的隐藏状态后，进一步将其放大，产生了更强的激活异常值。
这个过程在第 3 层的超级专家 82 这里再次被放大。

通过这种逐层接力放大的机制，一个微弱的初始异常信号被逐步放大，最终形成了稳定且贯穿整个模型的“巨量激活”现象。这种放大效应通常发生在模型较浅的几个层级，一旦形成，后续的层级便会维持这种状态。

4. 按图索骥：如何定位“超级专家”？

发现了“超级专家”的存在和机制后，下一个关键问题就是：如何在一个新的 MoE 模型中，快速、准确地找到它们？

4.1 提出“超级专家”的量化定义与自动化分析工具

为了实现对“超级专家”的系统性识别，研究者们提出了一个简洁而有效的量化定义。其核心思想是，“超级专家”产生的激活值，不仅在所有专家的所有激活值中是顶尖的（全局异常），而且在它自己所属的专家内部，也是顶尖的（局部异常）。

具体来说，他们计算了模型中每个专家在所有层级中 down_proj 输出的最大值。然后，一个位于 l 层、编号为 e 的专家被定义为“超级专家”，需要满足以下两个条件：

全局显著性：其最大激活值必须大于整个模型所有专家激活值集合 A 的 99.5 百分位数，即。
局部主导性：其最大激活值必须是整个模型最大激活值的一个显著部分（例如，大于十分之一），即。

这个定义可以用一个公式来表示：

基于这个清晰的定义，研究团队开发了一个自动化的分析工具，可以快速、精准地在任何新的 MoE 模型中识别出“超级专家”。这个工具也已经开源，为社区的研究提供了极大的便利。

上表展示了使用该工具在不同模型中识别出的“超级专家”的激活值。可以看到，被标记为粗体的“超级专家”激活值，远大于其他普通专家的激活值。

4.2 “超级专家”在不同模型中的分布

利用这个自动化工具，研究者们分析了多个主流 MoE 模型的“超级专家”分布情况，包括 Qwen3-30B-A3B、DeepSeek-V2-Lite-Chat 和 Mixtral-8x7B-Instruct-v0.1。

上图（Figure 5）和上表（Table 2）清晰地展示了这些模型中“超级专家”的位置。研究得出了几个关键结论：

普遍存在且数量稀少：在所有被研究的模型中都发现了“超级专家”，并且它们的数量占比极低，通常远小于 0.5%。例如，在 Qwen3-30B-A3B 模型中，总共 6144 个专家里只有 3 个是“超级专家”。在 Mixtral-8x7B-Instruct-v0.1 中，256 个专家里只有 1 个。
分布模式各异：不同模型的设计架构不同，“超级专家”的分布模式也不同。在 Qwen 和 DeepSeek 模型中，“超级专家”分布在较浅的几个层。而在 Mixtral 模型中，它们则集中在单一层。

4.3 惊人的稳定性：“超级专家”不受后训练和数据领域变化的影响

为了进一步探究“超级专家”的特性，研究者们还进行了两项重要的稳定性分析：

后训练过程的影响：他们比较了模型的基础版本（Base Model）和经过指令微调等后训练过程的版本（如 Chat Model）。结果发现，“超级专家”的分布在后训练前后完全一致。这意味着，“超级专家”的形成和其功能角色是在模型的预训练阶段就已经确立的，并且在后续的微调中保持稳定。
输入数据领域的影响：他们使用了来自不同领域的多个数据集（如通用文本 C4、WikiText-2，代码 HumanEval，数学 GSM8K 等）来测试“超级专家”的分布。结果同样惊人：无论输入数据的领域如何变化，“超级专家”的分布都保持高度稳定。

这两项发现有力地证明了，“超级专家”是模型固有的一种结构性特征，而非偶然或依赖于特定条件。它们是模型预训练过程中学到的、一种深刻且稳固的内在机制。

5. “超级专家”的重要性：不可或缺的基石

既然我们已经能够精准地定位“超级专家”，那么接下来的问题自然就是：它们到底有多重要？ 如果我们把它们从模型中移除，会发生什么？

5.1 剪枝实验：验证“超级专家”的关键作用

为了回答这个问题，研究者们进行了一系列简单而直接的剪枝实验。他们设计了三组对比实验：

原始模型（Baseline）：未经任何修改的模型。
剪枝超级专家（Prune SEs）：只剪掉被识别出的那几个“超级专家”。
随机剪枝（Random Pruning）：随机剪掉同等数量的其他普通专家，作为对照组。

他们通过一系列基准测试来评估模型在剪枝前后的性能变化。

5.2 对通用（非推理）能力的毁灭性打击

首先，在衡量通用能力的非推理任务上（如 MMLU、HellaSwag、OpenBookQA 等），结果非常震撼。

从上表可以看出：

剪枝“超级专家”导致性能雪崩：在 Qwen3、DeepSeek V2 Lite 和 Mixtral 三个模型上，仅仅剪掉数量极少的“超级专家”（Qwen3 只剪了 3 个），就导致了模型在所有任务上的性能大幅度下降。平均准确率下降幅度在 21.68% 到 27.21% 之间。尤其是在 GSM8K（小学数学应用题）这类需要一定推理能力的任务上，性能下降尤为惨烈，最高达到了 74.15% 的降幅！
随机剪枝几乎无影响：与之形成鲜明对比的是，随机剪掉同等数量的普通专家，对模型的性能影响微乎其微，几乎可以忽略不计。

原论文开篇的这张图（Figure 1）极具说服力。它展示了在 WikiText-2 数据集上，模型的困惑度（Perplexity, PPL，一个衡量语言模型性能的指标，越低越好）随剪枝专家数量的变化。蓝线（Baseline）是原始模型的 PPL（8.70）。红线（Super Experts）显示，仅仅剪掉 3 个“超级专家”，PPL 就飙升到 59.86，模型几乎完全失效。而绿线（Non-Super Experts）显示，即使随机剪掉 1000 个普通专家，PPL 也只是轻微上升到 10.85。

这一结果无可辩驳地证明了“超级专家”的极端重要性。它们并非可有可无，而是模型能力的关键支柱。

5.3 对推理能力的“致命一击”：模型“失智”现象

如果说在通用任务上的表现已经足够惊人，那么在对逻辑、数学和代码等高级推理能力要求更高的任务上，“超级专家”的重要性则被体现得淋漓尽致。

研究者们在 DeepSeek-R1 和 Qwen3-30B-A3B 的推理版本上进行了测试，结果如上两表所示。

推理能力完全丧失：剪掉“超级专家”后，模型在多个高难度数学推理和代码生成任务（如 AIME、LiveCodeBench）上的 Pass@1 分数直接降为零！这意味着模型完全丧失了解决这些问题的能力。整体性能的下降率达到了惊人的 93% 至 97%。
模型输出变得“胡言乱语”：更令人震惊的是，在审查模型在 MATH-500（数学问题）基准上的具体输出时，研究者发现了一个“模型失智”现象。

如上表所示，原始模型能够正常理解问题并开始推理。而剪掉了“超级专家”的模型，在面对同一个问题时，开始生成大量无意义的、不断重复的词语（"the way, it's, the way, it's..."），直到达到输出长度上限。这种行为表明，模型的基础推理能力已经完全崩溃。

这些实验结果强有力地表明，“超级专家”不仅对通用能力至关重要，更是模型进行复杂推理的命脉。失去了它们，MoE 模型就如同失去了大脑，变成了一个只会胡言乱语的“空壳”。

6. 深层机制：“超级专家”与“注意力池”的隐秘关联

至此，我们已经知道了“超级专家”是什么，在哪里，以及有多重要。但还有一个更深层次的问题：它们究竟是通过什么机制来发挥如此关键作用的？ 仅仅是产生“巨量激活”吗？“巨量激活”本身又有什么用？

这篇论文的另一大贡献，就是将“超级专家”与 LLM 中另一个重要但一直有些神秘的概念——“注意力池”（Attention Sink）——联系了起来。

6.1 什么是“注意力池”（Attention Sink）？

“注意力池”是近来在 LLM 研究中发现的一个有趣现象。它指的是，在自注意力（Self-Attention）机制中，模型会倾向于将不成比例的、大量的注意力分数分配给输入序列中最初的几个 token（词元），无论这些 token 的实际语义重要性如何。

这些初始 token 就像一个“水池”，吸收了大量本应分散开的“注意力”。虽然这些 token 本身可能只是些普通的起始符或者无意义的词，但“注意力池”这个机制本身，对于维持模型的稳定性和性能至关重要。特别是在处理长文本序列时，保留“注意力池”可以防止模型性能随着文本变长而衰减。

研究发现，“巨量激活”和“注意力池”之间存在着密切的联系。“巨量激活”所在的 token，往往就是吸引了大量注意力的“注意力池” token。

6.2 “超级专家”是“注意力池”的缔造者

基于已有的发现，这篇论文的研究者们提出了一个大胆的假设：既然“超级专家”是“巨量激活”的缔造者，而“巨量激活”与“注意力池”紧密相关，那么——

剪枝“超级专家”，是否不仅会消除“巨量激活”，还会同时破坏模型的“注意力池”机制？

为了验证这个假设，他们可视化了 Qwen3-30B-A3B 模型在剪枝“超级专家”前后的注意力图谱。

结果一目了然。如上图所示：

剪枝前（a, b, c）：在原始模型中，注意力图谱上存在清晰的“注意力池”。第一列（代表第一个 token）的颜色非常深，表明它吸引了绝大多数的注意力。
剪枝后（d, e, f）：在剪掉了“超级专家”之后，“注意力池”现象完全消失了！注意力分数变得弥散，不再集中于初始 token。

这个实验结果有力地证实了他们的假设：“超级专家”通过产生“巨量激活”，进而诱导了“注意力池”的形成。它们是“注意力池”机制的根本源头。

6.3 量化影响：引入“注意力池衰减率”

为了更定量地评估剪枝“超级专家”对“注意力池”的破坏程度，研究者们还提出了一个新的度量指标：注意力池衰减率（Attention Sink Decay Rate, ）。

这个指标衡量的是，在剪枝后，原先流向“注意力池” token 的注意力分数，有多少比例“衰减”或“流失”了。其定义如下：

其中，是注意力头的总数，是“注意力池” token 的集合，和分别是剪枝前后的注意力分数。的值越接近 1（或 100%），说明破坏得越严重。

上图展示了在剪枝“超级专家”后，模型所有层的“注意力池衰减率”。可以看到，衰减率始终保持在 90% 以上，甚至接近 100%。

这再次从量化的角度证明，剪掉“超级专家”对“注意力池”机制造成了持续且毁灭性的破坏。现在，我们终于可以完整地串联起整个因果链条了：

剪枝超级专家 (Pruning SEs) → 消除巨量激活 (Eliminating Massive Activations) → 破坏注意力池 (Disrupting Attention Sinks) → 模型性能崩溃 (Model Performance Collapse)

这一清晰的机制解释，是该研究最核心的贡献之一，它为我们深入理解 MoE 模型的内部工作原理打开了一扇全新的大门。

点评

论文清晰地揭示了“SEs → 巨量激活 → 注意力池 → 模型性能”这一关键因果链，极大地加深了我们对 MoE 模型内部工作机制的理解。论文的实验设计严谨、论证充分、结论具有很强的说服力，为后续的 MoE 模型压缩和优化研究提供了至关重要的指导原则。

论文提出的 SEs 量化定义（P99.5 和 amax/10）是简洁且有效的，但它本质上是一个经验性（empirical）或启发式（heuristic）的阈值。这些阈值是否具有普适性？是否可能存在一些“准超级专家”或重要性介于“超级”和“普通”之间的专家，被这种二元划分（binary classification）所忽略？现实情况可能非简单的二元对立。

另外，本研究最重要的实践启示是“在压缩时必须保护好超级专家”，这是一个极其宝贵的“避坑指南”。

往期文章：

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30