论文标题：Ministral 3
论文链接：https://arxiv.org/pdf/2601.08584

TL;DR

Mistral AI 近期发布了 Ministral 3 的技术报告，今天我们来解读一下。Ministral 3 系列包含 3B、8B 和 14B 三种参数规模，均提供 Base（基座）、Instruct（指令微调）和 Reasoning（推理）三个版本。该系列模型并未从零开始预训练，而是采用了一种被称为“级联蒸馏”（Cascade Distillation）的策略，从 Mistral Small 3.1（24B）这一父模型通过迭代式的剪枝（Pruning）和蒸馏（Distillation）获得。

核心技术亮点包括：

级联蒸馏（Cascade Distillation）：通过循环执行“剪枝-蒸馏”过程，依次生成 14B、8B 和 3B 模型，实现了计算与数据的高效利用。
多维剪枝策略：结合了层剪枝（基于输入输出范数比）、隐藏层维度剪枝（基于 PCA）和前馈网络维度剪枝（基于激活值重要性）。
推理能力增强：采用 SFT -> GRPO -> ODPO 的三阶段后训练流程，显著提升了小模型的复杂逻辑推理能力。
关于教师模型的实证发现：研究指出，在预训练阶段，并非教师模型越强越好（存在容量差距限制），但使用经过人类偏好对齐（Preference Tuned）的教师模型进行蒸馏，能显著提升学生模型的最终表现。

1. 引言

随着大语言模型（LLM）在各类应用中的普及，如何在计算资源受限和内存受限的端侧设备（Edge Devices）上部署高性能模型成为研究热点。传统的做法通常是针对特定参数规模（如 3B 或 8B）从零开始预训练（Training from Scratch），但这往往需要消耗巨大的算力和数万亿 token 的数据。

Ministral 3 的工作探索了一条不同的路径：从一个较强的父模型出发，通过结构化剪枝和知识蒸馏，向下衍生出一系列子模型。 与 Qwen 3 或 Llama 3 动辄使用 15T 至 36T token 进行训练不同，Ministral 3 利用 Mistral Small 3.1（24B）作为父模型，仅使用了 1T 至 3T 的 token 进行蒸馏训练，便获得了具有竞争力的性能。这种方法不仅降低了训练成本，还通过继承父模型的知识，缓解了小模型训练中的数据效率问题。

2. 模型架构与规格

Ministral 3 系列模型基于标准的 Transformer Decoder-only 架构，但在具体组件上结合了当前社区的主流优化实践。

2.1 核心参数配置

所有模型均使用 131K 大小的词表，并支持高达 256k 的上下文长度（Reasoning 版本为 128k）。具体的架构超参数如下表所示：

从架构细节来看，Ministral 3 采用了以下设计选择：

注意力机制：使用分组查询注意力（Grouped Query Attention, GQA），配置为 32 个 Query 头和 8 个 KV 头。这种设计在保证性能的同时显著降低了推理时的 KV Cache 显存占用。
位置编码：采用 RoPE（Rotary Positional Embeddings）。
激活函数：使用 SwiGLU。
归一化：采用 RMSNorm。
长上下文支持：使用 YaRN 方法和基于位置的 Softmax 温度缩放（Position-based softmax temperature scaling）来扩展上下文窗口。
Embedding 策略：3B 模型采用了输入输出 Embedding 权重绑定（Tied Embeddings），以减少参数量；而 8B 和 14B 模型则未绑定。这反映了在极小参数规模下，Embedding 参数占比过大，绑定权重是一种有效的参数压缩手段。

2.2 视觉编码器

Ministral 3 全系具备图像理解能力。其视觉部分直接复用了 Mistral Small 3.1 Base 中的 Vision Transformer (ViT)，参数量为 410M。该 ViT 的架构与 Pixtral 12B 中的视觉编码器一致。

在实现上，ViT 的权重被冻结（Frozen），模型去除了原始的投影层（Projection Layer），并为每个特定规模的 Ministral 3 模型训练了一个新的投影层，将视觉特征映射到语言模型的特征空间。

3. 预训练方法论：级联蒸馏

Ministral 3 的核心贡献在于其训练配方（Recipe）。研究团队并未独立训练每个尺寸的模型，而是设计了一个迭代式的“剪枝-蒸馏”管道。

3.1 级联蒸馏算法流程

整个过程可以形式化为算法 1。初始输入为父模型 Mistral Small 3.1 Base (MS3.1)。

初始化：令。
循环生成：对于目标尺寸：
- 剪枝（Prune）：利用剪枝算法将的参数缩减至目标尺寸，得到。
- 短上下文蒸馏：在基础上，使用作为教师模型，在短上下文数据（16k）上进行蒸馏训练，得到。
- 长上下文蒸馏：在基础上，继续使用作为教师，在长上下文数据上进行蒸馏，得到最终的 Base 模型。
- 更新父模型：将当前阶段生成的短上下文模型作为下一阶段的输入（即），用于生成更小尺寸的模型。

注意，对于 14B 模型，其父模型是 24B 的 MS3.1；对于 8B 模型，其父模型是训练好的 14B 短上下文模型；对于 3B 模型，其父模型是训练好的 8B 短上下文模型。这种链式继承确保了知识的逐级传递。

3.2 剪枝策略

Ministral 3 采用的剪枝方法并非简单的随机丢弃或基于梯度的复杂计算，而是基于激活统计量的结构化剪枝。这种方法类似于 Minitron 和 Wanda 等工作，但在具体指标上有所创新。

剪枝过程分为三个维度：层（Layers）、隐藏层维度（Hidden Dimension）和前馈网络维度（FFN Dimension）。

3.2.1 层剪枝

不同于某些工作依赖移除层后的困惑度（Perplexity）变化来评估层的重要性，Ministral 3 提出了一种更高效的代理指标：输入输出激活范数比。

对于第层，其重要性得分计算如下：

其中和分别是该层的输入和输出激活。逻辑在于，如果一层的输出范数相对于输入范数变化较小，说明该层对信号的变换贡献较低，可以被移除。根据得分保留 Top-k 层。

3.2.2 隐藏层维度剪枝

为了缩减隐藏层维度（Hidden Dim），模型对所有层中的 Attention Norm 和 FFN Norm 的输入激活进行拼接，并应用主成分分析（PCA）。

收集校准批次（Calibration Batch）的归一化输入。
计算 PCA 旋转矩阵。
将该旋转矩阵应用于整个网络，将权重投影到解释方差最大的低维子空间中。
这保证了在整个网络中应用一致的旋转变换，保留了信息量最大的特征维度。

3.2.3 前馈网络维度剪枝

对于使用 SwiGLU 激活函数的 MLP，其计算形式为。需要同时剪枝的维度。

重要性分数定义为中间激活值的平均绝对值：

根据该分数保留 Top-k 的神经元，并相应地裁剪的输出行和的输入列。

3.3 蒸馏目标函数

在蒸馏阶段，学生模型在文本数据和图文交错数据上进行训练。损失函数仅包含前向 KL 散度（Forward KL Divergence），即利用教师模型的 Logits 进行蒸馏。

作者指出，仅使用 KL 散度损失优于混合使用 KL 散度和 Next Token Prediction（NTP）损失的方法。在所有阶段，教师模型始终是初始的 Mistral Small 3.1（24B），即使在训练 3B 模型时也是如此。

4. 指令微调

指令微调（Instruction Tuning）旨在赋予模型遵循指令的能力。该阶段包含监督微调（SFT）和在线直接偏好优化（Online DPO）。

4.1 监督微调 (SFT)

量化训练：使用 FP8 量化进行 SFT。
教师模型切换：与预训练不同，SFT 阶段的蒸馏教师模型升级为更强的 Mistral Medium 3。这是一个关键的策略转换，意味着在后训练阶段，模型容量差距（Capacity Gap）的影响减弱，更强的教师能带来更好的对齐效果。
视觉适配器：视觉编码器保持冻结，仅训练适配器（Adapter）。

4.2 在线直接偏好优化 (Online DPO)

Ministral 3 采用了 Online DPO (ODPO) 变体。

采样：对于每个样本，使用当前策略模型（温度 T=0.7）生成两个候选响应。
奖励模型：使用一个基于文本的成对奖励模型（Pairwise Reward Model, PWRM）对这两个响应进行排序。该 PWRM 本身是在结构化成对数据上训练的。
损失函数修正：
1. 利用 PWRM 输出的二项概率（Binomial Probability）来替换传统的硬标签（Winner/Loser），实现软标签训练。
2. 应用 -rescaling 技术，使 DPO 损失对尺度更加不敏感。
3. 启发式过滤：自动将出现无限循环的生成结果标记为“Loser”。

5. 推理微调

为了提升模型在数学、代码和复杂逻辑任务上的表现，Ministral 3 引入了专门的推理微调流程。这部分模型被称为 Ministral 3 Reasoning。

5.1 三阶段训练管道

推理模型的训练并非始于 SFT 后的 Instruct 模型，而是直接从 Base 模型的长上下文检查点开始，包含三个阶段：

推理 SFT (Reasoning SFT) ：
- 数据混合：包含通用的 SFT 数据和带有长思维链（Long CoT）推理轨迹的数据。
- CoT 数据处理：对推理轨迹进行清洗，移除格式错误、重复或语言切换不当的样本。
群体相对策略优化 (GRPO) ：
- 采用 DeepSeek-AI 提出的 GRPO 算法。
- 阶段一（STEM RL）：专注于数学、代码和视觉推理任务。利用编译器或规则检查器作为奖励信号。
- 阶段二（General RL）：扩展到通用对话和指令遵循。利用 LLM 作为裁判（Judge）根据预定义的评分标准（Rubrics）对模型生成的输出进行打分，奖励值为满足标准的比例。
- 长上下文生成：在 RL 阶段，最大生成长度从 32k 增加到 80k，以允许模型进行充分的思考。
最终 ODPO：
- 在 GRPO 之后，再次应用 ODPO 以对齐人类偏好。
- 关键处理：在输入给奖励模型之前，剥离（Strip）掉模型生成的思维链（Thinking Chunks），仅对最终回答进行偏好评分。这确保了奖励模型专注于结果的正确性和可读性，而非思维过程的冗长程度。

5.2 3B 模型的特殊处理

对于 3B 规模的模型，直接进行 SFT 导致模型出现严重的重复和冗长输出。解决方案是在 SFT 阶段引入 Logit Distillation，使用 Mistral Small 1.2 作为教师。这成功稳定了模型并减少了废话，为后续的 RL 训练奠定了基础。

6. 实验结果

6.1 预训练性能

在 14B 尺度上，Ministral 3 在 TriviaQA 和 MATH 基准上优于 Qwen 3 14B，在其他基准上表现相当。相较于 Gemma 3 12B，Ministral 3 14B 展现了显著的优势。
在 8B 和 3B 尺度上，Ministral 3 同样表现出极高的参数效率（Parameter Efficiency）。特别是 Ministral 3 8B 在除 TriviaQA 外的所有测试中均击败了参数量更大的 Gemma 3 12B。

6.2 教师模型的知识保留

表 3 展示了剪枝后的模型在多大程度上保留了父模型的能力。结果显示，性能随参数量减少平滑下降，但即使是 3B 模型也保留了父模型相当大比例的能力。例如在 MMLU 上，14B 模型仅比 24B 父模型低 1.6 分。

6.3 指令遵循与推理能力

在指令微调后，Ministral 3 在 Arena Hard、WildBench 等对齐基准上表现优异。特别是 Ministral 3 14B 在 MATH (maj@1) 上达到了 90.40% 的准确率，优于同尺寸的 Qwen 3。

推理版本（Reasoning Models）在数学和代码任务上进一步提升了性能。在 AIME 2024 和 GPQA Diamond 等高难度基准上，Ministral 3 14B Reasoning 均优于 Qwen 3 14B。

7. 讨论与消融研究

7.1 教师模型的选择：越强越好吗？

在预训练的蒸馏阶段，直觉上认为教师模型越强，学生模型学得越好。然而，Ministral 的实验（图 3）反驳了这一点。

预训练阶段：比较了从 Mistral Small 3.1（24B）蒸馏和从 Mistral Medium 3（更强的大模型）蒸馏的效果。结果显示，使用较弱的 Mistral Small 3.1 作为教师，学生模型的下游任务表现反而更好。
解释：这证实了“容量差距”（Capacity Gap）的存在。当教师模型过于复杂，其概率分布包含的细微差别可能超出了小参数学生模型的拟合能力，导致学习效率下降。
后训练阶段：有趣的是，在 SFT 和后训练阶段，这种限制不再适用。Ministral 3 在 SFT 阶段切换到 Mistral Medium 3 作为教师，获得了性能提升。这表明模型在具备了基础知识表征后，能更好地从强教师那里学习对齐和复杂指令遵循。

7.2 教师模型的类型：Base 还是 Instruct？

另一个关键问题是：预训练 Base 模型时，应该蒸馏 Teacher 的 Base 版本还是 Instruct 版本？

实验（图 4）表明：从 Post-trained（Instruct/Reasoning）教师蒸馏，能得到更强的 Base 学生模型。
具体影响：这种收益在数学（MATH）和代码能力上尤为显著，而在一般知识（MMLU）上影响较小。这意味着 Instruct 教师模型中的逻辑推理能力可以通过 Logit 蒸馏有效地传递给 Base 学生模型。

7.3 偏好优化教师的优势

进一步的实验比较了从 SFT 教师蒸馏与从“SFT+偏好优化”教师蒸馏的效果。

结论：从经过人类偏好优化（Preference Tuned）的教师处蒸馏始终优于仅经过 SFT 的教师。
意义：这意味着对齐（Alignment）不仅仅是调整说话方式，它可能在模型内部优化了知识的组织形式，使其更易于被学生模型吸收。即便学生模型随后也会进行自己的偏好优化，这种初始的增益依然存在。

7.4 冗余性与推理行为

在分析 Reasoning 模型时，研究者发现 Ministral 3 的 Instruct 版本与 Qwen 3 表现出不同的“冗余性”（Verbosity）。由于 Ministral 3 的训练流程中，Reasoning RL 是在 SFT 之后、通用 RL 之前进行的（或者说其 Instruct 模型并未像 Qwen 那样混合了大量推理数据进行预训练），其输出长度和行为模式有所不同。

此外，为了诱导 Instruct 模型产生推理能力，研究者尝试在 SFT 数据中加入长 CoT 数据。虽然提升了 STEM 性能，但也导致了副作用：模型在一般对话中也开始过度反思、自言自语（Internal Monologues）和回溯。这被认为是不可取的，因此 Ministral 3 最终将 Reasoning 模型作为一个独立的分支发布，而不是试图让一个模型同时通过 Prompt 兼顾极致推理和通用对话（尽管 Reasoning 模型在 ODPO 阶段剥离了思维链以改善对话体验）。

8. 结论

Ministral 3 证明了在受限计算预算下，通过级联蒸馏（Cascade Distillation）策略，可以高效地生产出一系列高性能的密集小模型。

核心启示：

复用父模型资产：通过结构化剪枝继承大模型权重，比从零预训练更高效。
蒸馏的细微差别：预训练阶段需警惕容量差距，应选择适配的教师；而后训练阶段则应大胆使用最强教师。
推理能力的传递：利用 Instruct 或 Reasoning 版本的教师来预训练 Base 模型，可以显著增强小模型的数学代码基因。

更多细节请阅读原文。

往期文章：