• 论文标题:Ministral 3
  • 论文链接:https://arxiv.org/pdf/2601.08584

TL;DR

Mistral AI 近期发布了 Ministral 3 的技术报告,今天我们来解读一下。Ministral 3 系列包含 3B、8B 和 14B 三种参数规模,均提供 Base(基座)、Instruct(指令微调)和 Reasoning(推理)三个版本。该系列模型并未从零开始预训练,而是采用了一种被称为“级联蒸馏”(Cascade Distillation)的策略,从 Mistral Small 3.1(24B)这一父模型通过迭代式的剪枝(Pruning)和蒸馏(Distillation)获得。

核心技术亮点包括:

  1. 级联蒸馏(Cascade Distillation):通过循环执行“剪枝-蒸馏”过程,依次生成 14B、8B 和 3B 模型,实现了计算与数据的高效利用。
  2. 多维剪枝策略:结合了层剪枝(基于输入输出范数比)、隐藏层维度剪枝(基于 PCA)和前馈网络维度剪枝(基于激活值重要性)。
  3. 推理能力增强:采用 SFT -> GRPO -> ODPO 的三阶段后训练流程,显著提升了小模型的复杂逻辑推理能力。
  4. 关于教师模型的实证发现:研究指出,在预训练阶段,并非教师模型越强越好(存在容量差距限制),但使用经过人类偏好对齐(Preference Tuned)的教师模型进行蒸馏,能显著提升学生模型的最终表现。

1. 引言

随着大语言模型(LLM)在各类应用中的普及,如何在计算资源受限和内存受限的端侧设备(Edge Devices)上部署高性能模型成为研究热点。传统的做法通常是针对特定参数规模(如 3B 或 8B)从零开始预训练(Training from Scratch),但这往往需要消耗巨大的算力和数万亿 token 的数据。

Ministral 3 的工作探索了一条不同的路径:从一个较强的父模型出发,通过结构化剪枝和知识蒸馏,向下衍生出一系列子模型。 与 Qwen 3 或 Llama 3 动辄使用 15T 至 36T token 进行训练不同,Ministral 3 利用 Mistral Small 3.1(24B)作为父模型,仅使用了 1T 至 3T 的 token 进行蒸馏训练,便获得了具有竞争力的性能。这种方法不仅降低了训练成本,还通过继承父模型的知识,缓解了小模型训练中的数据效率问题。

2. 模型架构与规格

Ministral 3 系列模型基于标准的 Transformer Decoder-only 架构,但在具体组件上结合了当前社区的主流优化实践。

2.1 核心参数配置

所有模型均使用 131K 大小的词表,并支持高达 256k 的上下文长度(Reasoning 版本为 128k)。具体的架构超参数如下表所示:

从架构细节来看,Ministral 3 采用了以下设计选择:

  • 注意力机制:使用分组查询注意力(Grouped Query Attention, GQA),配置为 32 个 Query 头和 8 个 KV 头。这种设计在保证性能的同时显著降低了推理时的 KV Cache 显存占用。
  • 位置编码:采用 RoPE(Rotary Positional Embeddings)。
  • 激活函数:使用 SwiGLU。
  • 归一化:采用 RMSNorm。
  • 长上下文支持:使用 YaRN 方法和基于位置的 Softmax 温度缩放(Position-based softmax temperature scaling)来扩展上下文窗口。
  • Embedding 策略:3B 模型采用了输入输出 Embedding 权重绑定(Tied Embeddings),以减少参数量;而 8B 和 14B 模型则未绑定。这反映了在极小参数规模下,Embedding 参数占比过大,绑定权重是一种有效的参数压缩手段。

2.2 视觉编码器

Ministral 3 全系具备图像理解能力。其视觉部分直接复用了 Mistral Small 3.1 Base 中的 Vision Transformer (ViT),参数量为 410M。该 ViT 的架构与 Pixtral 12B 中的视觉编码器一致。

在实现上,ViT 的权重被冻结(Frozen),模型去除了原始的投影层(Projection Layer),并为每个特定规模的 Ministral 3 模型训练了一个新的投影层,将视觉特征映射到语言模型的特征空间。

3. 预训练方法论:级联蒸馏

Ministral 3 的核心贡献在于其训练配方(Recipe)。研究团队并未独立训练每个尺寸的模型,而是设计了一个迭代式的“剪枝-蒸馏”管道。

3.1 级联蒸馏算法流程

整个过程可以形式化为算法 1。初始输入为父模型 Mistral Small 3.1 Base (MS3.1)。

  1. 初始化:令
  2. 循环生成:对于目标尺寸

    • 剪枝(Prune):利用剪枝算法将 的参数缩减至目标尺寸 ,得到
    • 短上下文蒸馏:在 基础上,使用 作为教师模型,在短上下文数据(16k)上进行蒸馏训练,得到
    • 长上下文蒸馏:在 基础上,继续使用 作为教师,在长上下文数据上进行蒸馏,得到最终的 Base 模型
    • 更新父模型:将当前阶段生成的短上下文模型 作为下一阶段的输入(即 ),用于生成更小尺寸的模型。

注意,对于 14B 模型,其父模型是 24B 的 MS3.1;对于 8B 模型,其父模型是训练好的 14B 短上下文模型;对于 3B 模型,其父模型是训练好的 8B 短上下文模型。这种链式继承确保了知识的逐级传递。

3.2 剪枝策略

Ministral 3 采用的剪枝方法并非简单的随机丢弃或基于梯度的复杂计算,而是基于激活统计量的结构化剪枝。这种方法类似于 Minitron 和 Wanda 等工作,但在具体指标上有所创新。

剪枝过程分为三个维度:层(Layers)、隐藏层维度(Hidden Dimension)和前馈网络维度(FFN Dimension)。

3.2.1 层剪枝

不同于某些工作依赖移除层后的困惑度(Perplexity)变化来评估层的重要性,Ministral 3 提出了一种更高效的代理指标:输入输出激活范数比

对于第 层,其重要性得分 计算如下:

其中 分别是该层的输入和输出激活。逻辑在于,如果一层的输出范数相对于输入范数变化较小,说明该层对信号的变换贡献较低,可以被移除。根据得分保留 Top-k 层。

3.2.2 隐藏层维度剪枝

为了缩减隐藏层维度(Hidden Dim),模型对所有层中的 Attention Norm 和 FFN Norm 的输入激活进行拼接,并应用主成分分析(PCA)。

  1. 收集校准批次(Calibration Batch)的归一化输入。
  2. 计算 PCA 旋转矩阵
  3. 将该旋转矩阵应用于整个网络,将权重投影到解释方差最大的低维子空间中。
  4. 这保证了在整个网络中应用一致的旋转变换,保留了信息量最大的特征维度。

3.2.3 前馈网络维度剪枝

对于使用 SwiGLU 激活函数的 MLP,其计算形式为 。需要同时剪枝 的维度。

重要性分数定义为中间激活值的平均绝对值:

根据该分数保留 Top-k 的神经元,并相应地裁剪 的输出行和 的输入列。

3.3 蒸馏目标函数

在蒸馏阶段,学生模型在文本数据和图文交错数据上进行训练。损失函数仅包含前向 KL 散度(Forward KL Divergence),即利用教师模型的 Logits 进行蒸馏。

作者指出,仅使用 KL 散度损失优于混合使用 KL 散度和 Next Token Prediction(NTP)损失的方法。在所有阶段,教师模型始终是初始的 Mistral Small 3.1(24B),即使在训练 3B 模型时也是如此。

4. 指令微调

指令微调(Instruction Tuning)旨在赋予模型遵循指令的能力。该阶段包含监督微调(SFT)和在线直接偏好优化(Online DPO)。

4.1 监督微调 (SFT)

  • 量化训练:使用 FP8 量化进行 SFT。
  • 教师模型切换:与预训练不同,SFT 阶段的蒸馏教师模型升级为更强的 Mistral Medium 3。这是一个关键的策略转换,意味着在后训练阶段,模型容量差距(Capacity Gap)的影响减弱,更强的教师能带来更好的对齐效果。
  • 视觉适配器:视觉编码器保持冻结,仅训练适配器(Adapter)。

4.2 在线直接偏好优化 (Online DPO)

Ministral 3 采用了 Online DPO (ODPO) 变体。

  • 采样:对于每个样本,使用当前策略模型(温度 T=0.7)生成两个候选响应。
  • 奖励模型:使用一个基于文本的成对奖励模型(Pairwise Reward Model, PWRM)对这两个响应进行排序。该 PWRM 本身是在结构化成对数据上训练的。
  • 损失函数修正

    1. 利用 PWRM 输出的二项概率(Binomial Probability)来替换传统的硬标签(Winner/Loser),实现软标签训练。
    2. 应用 -rescaling 技术,使 DPO 损失对尺度更加不敏感。
    3. 启发式过滤:自动将出现无限循环的生成结果标记为“Loser”。

5. 推理微调

为了提升模型在数学、代码和复杂逻辑任务上的表现,Ministral 3 引入了专门的推理微调流程。这部分模型被称为 Ministral 3 Reasoning。

5.1 三阶段训练管道

推理模型的训练并非始于 SFT 后的 Instruct 模型,而是直接从 Base 模型的长上下文检查点开始,包含三个阶段:

  1. 推理 SFT (Reasoning SFT)

    • 数据混合:包含通用的 SFT 数据和带有长思维链(Long CoT)推理轨迹的数据。
    • CoT 数据处理:对推理轨迹进行清洗,移除格式错误、重复或语言切换不当的样本。
  2. 群体相对策略优化 (GRPO)

    • 采用 DeepSeek-AI 提出的 GRPO 算法。
    • 阶段一(STEM RL):专注于数学、代码和视觉推理任务。利用编译器或规则检查器作为奖励信号。
    • 阶段二(General RL):扩展到通用对话和指令遵循。利用 LLM 作为裁判(Judge)根据预定义的评分标准(Rubrics)对模型生成的输出进行打分,奖励值为满足标准的比例。
    • 长上下文生成:在 RL 阶段,最大生成长度从 32k 增加到 80k,以允许模型进行充分的思考。
  3. 最终 ODPO

    • 在 GRPO 之后,再次应用 ODPO 以对齐人类偏好。
    • 关键处理:在输入给奖励模型之前,剥离(Strip)掉模型生成的思维链(Thinking Chunks),仅对最终回答进行偏好评分。这确保了奖励模型专注于结果的正确性和可读性,而非思维过程的冗长程度。

5.2 3B 模型的特殊处理

对于 3B 规模的模型,直接进行 SFT 导致模型出现严重的重复和冗长输出。解决方案是在 SFT 阶段引入 Logit Distillation,使用 Mistral Small 1.2 作为教师。这成功稳定了模型并减少了废话,为后续的 RL 训练奠定了基础。

6. 实验结果

6.1 预训练性能

在 14B 尺度上,Ministral 3 在 TriviaQA 和 MATH 基准上优于 Qwen 3 14B,在其他基准上表现相当。相较于 Gemma 3 12B,Ministral 3 14B 展现了显著的优势。
在 8B 和 3B 尺度上,Ministral 3 同样表现出极高的参数效率(Parameter Efficiency)。特别是 Ministral 3 8B 在除 TriviaQA 外的所有测试中均击败了参数量更大的 Gemma 3 12B。

6.2 教师模型的知识保留

表 3 展示了剪枝后的模型在多大程度上保留了父模型的能力。结果显示,性能随参数量减少平滑下降,但即使是 3B 模型也保留了父模型相当大比例的能力。例如在 MMLU 上,14B 模型仅比 24B 父模型低 1.6 分。

6.3 指令遵循与推理能力

在指令微调后,Ministral 3 在 Arena Hard、WildBench 等对齐基准上表现优异。特别是 Ministral 3 14B 在 MATH (maj@1) 上达到了 90.40% 的准确率,优于同尺寸的 Qwen 3。

推理版本(Reasoning Models)在数学和代码任务上进一步提升了性能。在 AIME 2024 和 GPQA Diamond 等高难度基准上,Ministral 3 14B Reasoning 均优于 Qwen 3 14B。

7. 讨论与消融研究

7.1 教师模型的选择:越强越好吗?

在预训练的蒸馏阶段,直觉上认为教师模型越强,学生模型学得越好。然而,Ministral 的实验(图 3)反驳了这一点。

  • 预训练阶段:比较了从 Mistral Small 3.1(24B)蒸馏和从 Mistral Medium 3(更强的大模型)蒸馏的效果。结果显示,使用较弱的 Mistral Small 3.1 作为教师,学生模型的下游任务表现反而更好
  • 解释:这证实了“容量差距”(Capacity Gap)的存在。当教师模型过于复杂,其概率分布包含的细微差别可能超出了小参数学生模型的拟合能力,导致学习效率下降。
  • 后训练阶段:有趣的是,在 SFT 和后训练阶段,这种限制不再适用。Ministral 3 在 SFT 阶段切换到 Mistral Medium 3 作为教师,获得了性能提升。这表明模型在具备了基础知识表征后,能更好地从强教师那里学习对齐和复杂指令遵循。

7.2 教师模型的类型:Base 还是 Instruct?

另一个关键问题是:预训练 Base 模型时,应该蒸馏 Teacher 的 Base 版本还是 Instruct 版本?

  • 实验(图 4)表明:从 Post-trained(Instruct/Reasoning)教师蒸馏,能得到更强的 Base 学生模型。
  • 具体影响:这种收益在数学(MATH)和代码能力上尤为显著,而在一般知识(MMLU)上影响较小。这意味着 Instruct 教师模型中的逻辑推理能力可以通过 Logit 蒸馏有效地传递给 Base 学生模型。

7.3 偏好优化教师的优势

进一步的实验比较了从 SFT 教师蒸馏与从“SFT+偏好优化”教师蒸馏的效果。

  • 结论:从经过人类偏好优化(Preference Tuned)的教师处蒸馏始终优于仅经过 SFT 的教师。
  • 意义:这意味着对齐(Alignment)不仅仅是调整说话方式,它可能在模型内部优化了知识的组织形式,使其更易于被学生模型吸收。即便学生模型随后也会进行自己的偏好优化,这种初始的增益依然存在。

7.4 冗余性与推理行为

在分析 Reasoning 模型时,研究者发现 Ministral 3 的 Instruct 版本与 Qwen 3 表现出不同的“冗余性”(Verbosity)。由于 Ministral 3 的训练流程中,Reasoning RL 是在 SFT 之后、通用 RL 之前进行的(或者说其 Instruct 模型并未像 Qwen 那样混合了大量推理数据进行预训练),其输出长度和行为模式有所不同。

此外,为了诱导 Instruct 模型产生推理能力,研究者尝试在 SFT 数据中加入长 CoT 数据。虽然提升了 STEM 性能,但也导致了副作用:模型在一般对话中也开始过度反思、自言自语(Internal Monologues)和回溯。这被认为是不可取的,因此 Ministral 3 最终将 Reasoning 模型作为一个独立的分支发布,而不是试图让一个模型同时通过 Prompt 兼顾极致推理和通用对话(尽管 Reasoning 模型在 ODPO 阶段剥离了思维链以改善对话体验)。

8. 结论

Ministral 3 证明了在受限计算预算下,通过级联蒸馏(Cascade Distillation)策略,可以高效地生产出一系列高性能的密集小模型。

核心启示:

  1. 复用父模型资产:通过结构化剪枝继承大模型权重,比从零预训练更高效。
  2. 蒸馏的细微差别:预训练阶段需警惕容量差距,应选择适配的教师;而后训练阶段则应大胆使用最强教师。
  3. 推理能力的传递:利用 Instruct 或 Reasoning 版本的教师来预训练 Base 模型,可以显著增强小模型的数学代码基因。

更多细节请阅读原文。


往期文章: