论文标题：Scaling Embeddings Outperforms Scaling Experts in Language Models
论文链接：https://arxiv.org/pdf/2601.21204

TL;DR

今天解读一篇来自美团 LongCat 团队近期发布的技术报告。报告探讨了在混合专家模型（MoE）面临稀疏性扩展瓶颈时，如何利用 Embedding 层作为正交的扩展维度。报告通过系统性的实验分析，对比了扩展专家数量（Expert Scaling）与扩展 Embedding 参数（Embedding Scaling）的效能，发现了 Embedding Scaling 具备更优 Pareto 前沿的特定区间。

基于 N-gram Embedding 技术，研究团队从零训练了 LongCat-Flash-Lite 模型（68.5B 总参数，约 3B 激活参数），其中 Embedding 参数占比超过 30B（约 46%）。评估结果显示，该模型在保持推理效率的同时，在同等参数规模下优于单纯扩展专家的 MoE 基线，并在 Agent 和代码任务上展现出竞争力。

1. 引言

1.1 MoE 的收益递减与系统瓶颈

混合专家（MoE）架构已成为大语言模型（LLM）稀疏扩展的主流范式。通过动态路由机制，MoE 能够在增加模型总容量的同时保持较低的计算成本（FLOPs）。然而，随着模型规模和稀疏度的增加，MoE 面临两个主要问题：

性能收益递减：随着专家数量增加，性能提升的边际效应逐渐降低，最终趋近于效率饱和点。
系统级瓶颈：在分布式训练中，扩展专家数量带来了巨大的通信开销（All-to-All 通信）和内存带宽压力。

1.2 Embedding

相比于 FFN 层的专家扩展，Embedding 层提供了一个具有查找复杂度的稀疏维度。理论上，Embedding 层的参数扩展不会引入路由开销，且 lookup 操作天然稀疏。

现有的 Scaling Laws 研究指出，为了最大化计算效率，更大的模型应当配备更大的词表（Vocabulary）。目前利用这一潜力的策略主要分为两类：

结构性扩展：如 Per-Layer Embedding (PLE)，在每一层分配独立的 Embedding 参数。
词表扩展：利用 N-gram 技术增加每个 Token 的信息密度。

本文的核心贡献在于系统地量化了 Embedding 参数与专家参数之间的缩放效率对比，确立了 Embedding Scaling 的有效边界和最佳实践。

2. N-gram Embedding 层

为了在不因词表爆炸导致训练困难的前提下扩展 Embedding 参数，论文采用了 N-gram Embedding 方法（基于 Clark et al., 2022; Huang et al., 2025 等工作）。

2.1 基础定义

对于序列中的第个 Token ，其增强后的 Embedding 计算方式如下：

其中：

是基础 Embedding 表。
是扩展的 N-gram Embedding 表。
是最大 N-gram 阶数。
是哈希映射函数。

哈希函数采用多项式滚动哈希（Polynomial Rolling Hash）：

2.2 进阶实现：子表分解（Sub-tables）

为了增强表达能力并减少哈希冲突，模型将每个 N-gram Embedding 表分解为个具有不同词表大小的子表，并引入线性投影。最终形式如下：

是子表，维度为。
是线性投影矩阵。
通过调整子表维度，确保参数总量对和不敏感。

架构示意图如下：

图 1 N-gram Embedding 层架构示意图，展示了从 Input tokens 到 Base Table 以及 N-gram Branch 的处理流程

3. Embedding Scaling 与 Expert Scaling 的对比分析

这是论文最核心的章节。研究团队构建了严格的对比实验：在相同的激活参数预算（280M, 790M, 1.3B）下，通过从头预训练（From-scratch Pre-training）来对比两种扩展策略。

基线（MoE Baseline）：通过增加专家数量来达到目标总参数量。
实验组（N-gram Embedding）：在固定专家数量的基础上，通过 N-gram Embedding 增加参数至与基线相同。

3.1 最佳切入时机：稀疏度阈值

实验发现，N-gram Embedding 的缩放动力学主要取决于基础模型的稀疏度（定义为总参数量与激活参数量之比）。

现象分析：

MoE 的对数线性关系：MoE 的 Loss 随专家数量增加呈现对数线性下降。在低倍率（Ratio）区间，少量增加专家就能显著降低 Loss。
高倍率区间的收益反转：随着倍率增加，MoE 需要极其庞大的专家数量才能获得同等的 Loss 下降。
结论：在低参数倍率下，Embedding Scaling 不如直接增加专家有效；但在高稀疏度水平（高倍率）下，Embedding Scaling 的收益显著超过 Expert Scaling。

设计原则：应在专家数量扩充至超过其“甜点（Sweet Spot）”区，即边际收益开始明显下降后，再引入 N-gram Embedding。

3.2 参数预算分配策略

观察图 2 中的曲线交叉点，研究发现当 N-gram Embedding 占据过多参数预算时，性能会被 MoE 基线反超。Loss 随 N-gram Embedding 比例呈现 U 型曲线。

设计原则：分配给 N-gram Embedding 的参数预算不应超过模型总参数预算的 50% 。

3.3 缓解哈希冲突：词表大小的选择

哈希冲突会导致不同 N-gram 的语义叠加在同一个 Embedding 向量上，阻碍学习效率。研究团队分析了“词表命中率（Vocabulary Hit Rate）”和“哈希冲突数（Hash Collisions）”。

关键发现：

2-gram 的哈希冲突数与词表大小呈现强非线性相关。
当 N-gram 词表大小接近基础词表大小的整数倍时，冲突数会剧烈飙升。

设计原则：N-gram Embedding 的词表大小应避免设为基础词表大小的整数倍。

3.4 超参数敏感性分析

针对 N-gram 阶数和子表数量的消融实验（基于 790M 激活参数模型）：

低配表现差：时模型性能最差。
鲁棒区间：当且时，性能差异较小。
经验法则：将设定在 3 到 5 之间通常能获得近乎最优的性能。

3.5 训练稳定性：Embedding 放大

早期实验发现，N-gram Embedding 模型在训练初期面临信号被淹没的问题。

问题：首个 Attention 模块输出的 L2 范数比 Embedding 输出（Identity 分支）高出一个数量级（约 10 倍）。在残差连接求和时，Embedding 信号实际上被“淹没”了，导致训练困难。

解决方案：

缩放因子（Scaling Factor）：引入对 Embedding 输出进行缩放。
归一化（Normalization）：在合并到残差流之前应用 LayerNorm。

实验表明，应用上述 Embedding Amplification 技术后，Training Loss 和 Validation Loss 均有一致性的降低（约 0.02），这在预训练中是显著的提升。

3.6 模型宽度与深度的影响

这是影响 Embedding Scaling 效能的两个关键架构因素。

3.6.1 模型宽度的影响（Width）

在固定层数（10层）的情况下，分别在 790M 和 1.3B 激活参数规模下进行实验。

发现：

更宽的模型优势更大：随着模型宽度增加，N-gram Embedding 曲线与 MoE 曲线的交叉点向更高的倍率（Ratio）移动。
在 1.3B 激活规模下，即使 Ratio 高达 50，N-gram Embedding 依然保持优势。

结论：增加模型宽度（Hidden Size）能够显著扩大 N-gram Embedding 的有效利用窗口。

3.6.2 模型深度的影响（Depth）

在 Pre-Norm 架构中，随着网络深度增加，通过 Skip Connection 传递的原始 Embedding 信号会被逐渐稀释。

发现：

当模型深度超过 20 层时，N-gram Embedding 相对于 MoE 基线的性能优势显著收缩。
这与宽度的影响截然相反（宽度增加扩大优势）。

结论：增加模型深度会削弱 N-gram Embedding 的相对优势。

讨论：虽然深度有负面影响，但在常规深度（如 40 层以内）下，结合足够的宽度，N-gram Embedding 依然能带来显著增益。

4. 推理效率与系统优化

虽然 N-gram Embedding 减少了 MoE 层的激活参数，降低了内存 I/O 压力，但也引入了新的计算和通信开销。

4.1 激活参数的重新分配

N-gram Embedding 本质上是将参数从 MoE 层（需加载但计算稀疏）转移到了 Embedding 层（需查找）。对于 I/O 受限（I/O-bound）的大 Batch 解码场景，减少 MoE 层的激活参数至关重要。

图 8 LongCat-Flash-Lite 与 Vanilla 版本的激活专家数量及推理性能对比

4.2 优化的 Embedding Lookup

挑战：

动态调度：推理框架的复杂调度使得预先确定 Token 序列变得困难。
计算开销：N-gram 哈希和查找引入额外延迟。

解决方案：N-gram Cache
受 KV Cache 启发，团队设计了 N-gram Cache。

机制：利用定制 CUDA Kernel 在设备端直接管理 N-gram ID。
优势：实现了与推理调度逻辑的低开销同步，避免了重复计算。

4.3 投机采样（Speculative Decoding）的协同

由于模型极高的稀疏性，必须使用大 Batch Size 才能饱和 GPU 内存带宽。这天然契合投机采样（Speculative Decoding）。

优化策略：

Draft Model 优化：Draft Model 通常层数少，N-gram 开销占比大。策略是让 Draft Model 使用常规 Embedding，跳过 N-gram 查找。
缓存复用：在 Drafting 阶段缓存 N-gram Embedding，供 Verification 阶段复用，消除冗余计算。

前瞻性思考：
论文提出 N-gram Embedding 本身蕴含了丰富的局部上下文信息，未来可能直接用于构建超轻量级的 Draft Model（如 Early Rejection 机制）。

5. 与 Per-Layer Embedding (PLE) 的对比

PLE 是另一种扩展策略（如 Google DeepMind 的 Gemma 3n）。论文提出了 PLNE (Per-Layer N-gram Embedding) 进行对比。

图 9 N-gram Embedding, PLE, PLNE 的 Loss 对比

实验结论：

PLE vs NE：PLE 表现不如 N-gram Embedding (NE)。原因是 NE 的学习效率更高。
PLNE vs NE：PLNE 相比 NE 仅有边缘提升，但引入了更多参数（每层的投影矩阵）。在更大规模实验中，PLNE 未能展现持续优势。
决策：考虑到 PLNE 增加了激活参数量，团队最终选择了标准的 N-gram Embedding 方案。

6. LongCat-Flash-Lite 模型报告

基于上述研究，团队发布了 LongCat-Flash-Lite。

6.1 模型规格

总参数量：68.5B
激活参数量：2.9B ~ 4.5B (动态变化)
Embedding 参数：31.4B (N-gram Embedding)，占比 46%。
结构：14 个 Shortcut Layers，每层 256 FFN Experts + 128 Zero-Experts，Top-12 Routing。
训练数据：11T Token 预训练 (8k context) -> 1.5T Token Mid-training (128k context) -> SFT。使用 YARN 支持长文。

6.2 基础模型评估 (Base Model)

对比基线 LongCat-Flash-Lite-Vanilla（同参数量，无 N-gram Embedding，全部参数用于扩展专家）。

表 1 Base Model 在 General, Reasoning, Coding 领域的 Benchmark 对比

结果：

全面超越：在 MMLU, CMMLU, BBH, GSM8K, HumanEval+ 等绝大多数榜单上，LongCat-Flash-Lite 均优于 Vanilla 版本。
验证结论：在稀疏度足够高时，将参数预算分配给 Embedding 比分配给专家更有效。

6.3 Chat 模型评估

对比模型包括：Qwen3-Next-80B-A3B-Instruct, Gemini 2.5 Flash-Lite, Kimi-Linear-48B-A3B。

表 2 Chat 模型在 Agentic Tool Use, Coding, General Domains, Math 上的对比

亮点：

Agentic Tool Use：在 -Bench 的 Telecom 场景得分 72.8，大幅领先竞品（Gemini 2.5 为 21.93）。VitaBench 得分 7.00，位居第一。
Coding：SWE-Bench 准确率 54.4%，优于 Qwen3-Next (37.6%) 和 Gemini 2.5 (41.3%)。
Math：MATH500 得分 96.80，接近 Qwen3-Next (98.00)，优于 Gemini 2.5。

6.4 推理性能优化细节

为了解决“小激活参数、大总参数”带来的 Kernel Launch 瓶颈，采用了以下底层优化：

Eagle3 投机采样：采用 3-step speculative decoding。
Kernel Fusion：
- 融合通信与计算（AllReduce + Residual + RMSNorm）。
- 量化融合：将激活量化嵌入到 SwiGLU 和通信算子中。
- Router Logits 处理融合（Softmax + TopK + Scaling）。
Split-KV Combine 优化：针对解码阶段 KV split 数较多的情况，优化 combine kernel，延迟降低 50%。
PDL (Programmatic Dependent Launch) ：利用 NVIDIA PDL 技术，允许依赖 Kernel 提前触发，消除 Kernel 间隙，提升 SM 利用率。

最终实测在 8xH800 上，随着 Batch Size 增加，吞吐量（TPS）表现优异。

7. 结论与展望

主要贡献

Scaling Law 的修正：证明了在特定的高稀疏度区间（High Sparsity Regimes），Scaling Embeddings 的 Pareto 前沿优于 Scaling Experts。
架构设计指南：
- Embedding 参数占比不超 50%。
- 词表避开整数倍以防碰撞。
- 更宽的模型更适合 Embedding Scaling。
- 必须使用 Embedding Amplification 解决信号衰减。
工程落地：通过 N-gram Cache 和投机采样解决了 I/O 瓶颈，并开源了 LongCat-Flash-Lite。

局限性与未来工作

深度扩展瓶颈：深层模型中 Embedding 信号稀释问题仍需探索更优解（如由残差连接改为 Dense 连接等）。
PLNE 的分配：虽然 PLNE 整体优势不明显，但非均匀分配（集中在特定层）可能是一个方向。
N-gram 的语义利用：利用 N-gram 蕴含的共现信息直接辅助投机采样的 Draft 阶段。
更多细节请阅读原文。

往期文章：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

美团 LongCat 技术报告解读：在高稀疏度下，Embedding 扩展优于专家扩展

TL;DR

1. 引言

1.1 MoE 的收益递减与系统瓶颈

1.2 Embedding

2. N-gram Embedding 层

2.1 基础定义

2.2 进阶实现：子表分解（Sub-tables）

3. Embedding Scaling 与 Expert Scaling 的对比分析

3.1 最佳切入时机：稀疏度阈值

3.2 参数预算分配策略

3.3 缓解哈希冲突：词表大小的选择

3.4 超参数敏感性分析

3.5 训练稳定性：Embedding 放大

3.6 模型宽度与深度的影响

3.6.1 模型宽度的影响（Width）

3.6.2 模型深度的影响（Depth）

4. 推理效率与系统优化

4.1 激活参数的重新分配

4.2 优化的 Embedding Lookup

4.3 投机采样（Speculative Decoding）的协同

5. 与 Per-Layer Embedding (PLE) 的对比

6. LongCat-Flash-Lite 模型报告

6.1 模型规格

6.2 基础模型评估 (Base Model)

6.3 Chat 模型评估

6.4 推理性能优化细节

7. 结论与展望

主要贡献

局限性与未来工作

专题展示

美团 LongCat 技术报告解读：在高稀疏度下，Embedding 扩展优于专家扩展

TL;DR

1. 引言

1.1 MoE 的收益递减与系统瓶颈

1.2 Embedding

2. N-gram Embedding 层

2.1 基础定义

2.2 进阶实现：子表分解（Sub-tables）

3. Embedding Scaling 与 Expert Scaling 的对比分析

3.1 最佳切入时机：稀疏度阈值

3.2 参数预算分配策略

3.3 缓解哈希冲突：词表大小的选择

3.4 超参数敏感性分析

3.5 训练稳定性：Embedding 放大

3.6 模型宽度与深度的影响

3.6.1 模型宽度的影响（Width）

3.6.2 模型深度的影响（Depth）

4. 推理效率与系统优化

4.1 激活参数的重新分配

4.2 优化的 Embedding Lookup

4.3 投机采样（Speculative Decoding）的协同

5. 与 Per-Layer Embedding (PLE) 的对比

6. LongCat-Flash-Lite 模型报告

6.1 模型规格

6.2 基础模型评估 (Base Model)

6.3 Chat 模型评估

6.4 推理性能优化细节

7. 结论与展望

主要贡献

局限性与未来工作

猜你喜欢

专题展示