让每一项优秀工作，被更多人看见：点击进入投稿通道

论文追踪 APP 推荐：DailyPapers

论文标题：Co-Evolving Policy Distillation
论文链接：https://arxiv.org/pdf/2604.27083

TL;DR

今天解读一篇来自中国科学院信息工程研究所、中国科学院大学以及京东的论文《Co-Evolving Policy Distillation》。在大型语言模型的后训练（Post-training）阶段，基于可验证奖励的强化学习（RLVR）已成为提升模型推理能力的主流范式。然而，当研究人员试图将多种专家能力（如文本推理、图像推理、视频理解）整合到一个单一模型中时，传统的训练方法面临着明显的局限性：直接混合多领域数据进行 RLVR 训练会引发“能力分歧（Capability Divergence）”，导致不同能力之间相互干扰；而先分别训练领域专家，再通过多教师同策略蒸馏（MOPD）进行合并的静态流水线，又会因为教师和学生在行为模式上偏离过远，导致吸收效率（Absorption Efficiency）低下。

为了解决这一困境，作者提出了一种名为协同进化策略蒸馏（Co-Evolving Policy Distillation, CoPD）的新范式。CoPD 放弃了传统的“先训练专家，后静态蒸馏”的串行流程，转而采用多分支并行训练的架构。在训练过程中，每个分支交替进行针对特定领域的 RLVR 探索与跨分支的相互同策略蒸馏（Mutual OPD）。这种设计使得各个专家模型在不断深化自身领域能力的同时，互为师生，持续交换新获取的知识。

实验结果表明，CoPD 能够始终将教师与学生之间的行为距离保持在易于吸收的范围内。在文本、图像和视频推理的联合训练中，CoPD 不仅有效避免了跨领域数据混合带来的性能损耗，其最终合并的统一模型在各项基准测试上的表现均优于 Mixed RLVR 和静态 MOPD 基线，甚至在多个维度上超越了专门针对单一领域训练的专家模型。这一方法为多模态大模型的能力扩展提供了一种基于模型并行训练（Model Parallel Training）的有效路径。

1. 引言

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）在大型语言模型（LLM）的后训练中取得了重要进展。通过群体相对策略优化（GRPO）等算法，模型在视觉推理、文本数学推理和视频理解等领域的性能得到了大幅提升。然而，如何训练一个能够同时掌握所有这些能力的单一全能模型，一直是该领域面临的挑战。

当使用包含多种能力要求（如纯文本数学题和多模态图像推理题）的混合数据对单一模型进行 RLVR 训练时，通常会出现“能力权衡（Capability Trade-off）”现象。作者将这种现象称为能力分歧（Capability Divergence）：不同的能力倾向于不同的优化方向，导致在单次训练中难以同时推进所有能力。在混合数据训练中，某一项能力的提升往往以牺牲另一项能力为代价。

由于单次 RLVR 训练难以同时精通所有能力，目前的常规做法收敛于一种两阶段的静态流水线：首先，在基础模型（Base Model）的多个副本上，分别使用不同领域的数据进行独立的 RLVR 训练，从而获得多个专业化的“专家（Experts）”；随后，通过同策略蒸馏（On-Policy Distillation, OPD）——在多专家场景下称为多教师 OPD（MOPD）——将这些专家的能力整合到一个统一的策略模型中。这种方法通过物理隔离特定能力的训练，避免了梯度冲突，因此被广泛采用。

然而，作者指出，当前的 OPD 应用方式存在一个未被解决的关键问题。在现有的静态流水线中，每个专家首先在自己的数据上训练至收敛，然后被冻结为静态教师，用于指导一个独立的学生模型。作者认为，当蒸馏阶段开始时，教师的策略分布已经偏离学生模型太远，导致其提供的监督信号难以被有效吸收。

基于这一洞察，作者提出了 CoPD 框架。CoPD 维护多个并行的训练分支，每个分支对应一种特定能力。与冻结分支作为静态教师不同，CoPD 在整个训练过程中交替进行分支特定的 RLVR 和跨分支的相互蒸馏。这样一来，每个分支在深化自身专业知识的同时，也作为不断进化的教师指导其他分支。这种“协同进化”机制确保了各分支在保持足够知识差异（以提供信息量）的同时，其行为模式始终保持在彼此可吸收的范围内。

2. 现有范式的统一视角与实证分析

为了从理论和经验上论证 CoPD 的必要性，作者首先将混合数据 RLVR 和静态 OPD 流水线置于一个统一的分析框架下，揭示了它们各自在优化信号传递上的结构性损耗。

2.1 现有范式的统一视角

假设需要将两种能力（分别由数据集和代表）整合到一个统一策略中。令表示这两个数据集中包含的总优化信号，即如果两个数据集的信号能够被完美应用于统一策略，所能实现的理想能力增益。作者用以下公式来描述特定范式的实际效用：

其中，衡量范式将理想信号转化为实际能力的有效性（吸收率），而捕获了范式在不完美转化之外引入的额外损失。

混合数据 RLVR：作为冲突的能力分歧
当单一模型在上联合优化时，每步更新的梯度是两个数据集诱导梯度的平均值。由于不同能力倾向于不同的优化方向，它们的梯度在特定能力的维度上存在分歧，这种分歧表现为参数更新中的梯度冲突。其效用可表示为：

其中是能力分歧成本，即两种能力优化方向冲突的幅度。混合数据 RLVR 以“跷跷板效应”支付这一成本：无论如何调整数据混合比例，一种能力上的增益总是被另一种能力的干扰所部分或全部抵消。在统一公式中，这对应于且。

静态 OPD 流水线：避免了分歧，但吸收率低下
静态流水线通过隔离训练每个专家来避免梯度冲突，因此分歧成本被消除。代价转移到了整合阶段。在 OPD 步骤中，学生模型在其自身的同策略轨迹上进行训练，教师模型在每个访问过的状态处提供词元级别的监督：

作者指出，当教师和学生在同策略轨迹上表现相似时，上述公式中的监督最为有效。此时，两者的词元分布有大量重叠，教师的预测能够强化学生本来就有可能生成的词元。然而，当专家在隔离状态下训练至收敛时，它们的行为已经偏离了共享的基础模型，其在学生轨迹上的预测与学生自身的预测大相径庭。在这种不匹配下，OPD 信号变得难以吸收，只有一小部分优化信号被传递。其效用形式为：

其中是依赖于师生行为重叠度的吸收效率函数，表示专家在隔离收敛后产生的低重叠度。这对应于（一个较小的正值），且。

CoPD 的目标
上述两种范式在相反的方向上牺牲了优化信号。一个理想的范式必须同时满足两个条件：(i) 保持特定能力的优化隔离以消除分歧成本；(ii) 将师生重叠度维持在一个较高的水平，使得足够大，从而实际吸收优化信号。CoPD 的效用形式为：

其中是通过交替结构主动维持的中等重叠度。

2.2 行为假设与可测量指标

为了使上述分析可测试，作者提出了行为一致性假设（Behavioral consistency hypothesis）：当教师和学生表现出更相似的行为模式时，OPD 信号更容易被吸收，因为它们的同策略轨迹会访问相似的状态，且教师的预测与学生倾向于生成的词元更加一致。

作者通过同策略轨迹上的 Top- 词元重叠度（Top- token overlap） 来实例化这种行为相似性。给定教师和学生，定义如下：

其中表示预测概率最高的个词元的集合，是由学生诱导的状态访问分布。较大的表明在学生实际访问的状态下，教师和学生对哪些词元可能出现持有相同的看法。

2.3 导向性实验（Pilot Study）

作者设计了两个互补的实验来验证上述假设。

实验 1：吸收效率随师生重叠度上升
作者固定了一个教师模型（在图像数据上通过 RLVR 获得的专家），并通过使用不同的采样温度对基础模型进行短期训练，构造了一系列与教师具有不同值的学生模型。对每个学生，在相同的预算下进行 OPD 训练，并记录蒸馏前后的能力增益。

结果显示，OPD 后的增益随单调增加，呈现出的强线性相关性。这直接支持了行为一致性假设：即使教师固定，行为上更对齐的学生也能更有效地吸收 OPD 信号。当然，如果，师生变得无法区分，KL 散度趋于零，OPD 增益必然崩溃。因此，有效的范式必须主动维持师生之间非平凡的行为差距，同时防止差距过大。

实验 2：标准 RLVR 会将行为重叠度推向低区域
作者测试了静态流水线是否能将 OPD 保持在高区域。他们从共享的基础模型初始化，分别在文本数据和图像数据上独立训练两个专家。在固定的间隔内，测量每个专家在同策略轨迹上与的 Top- 重叠度和对称 KL 散度。

结果表明，随着 RLVR 的进行，与共享基础模型的单调下降，而对称 KL 散度上升了一个数量级。这意味着，当专家收敛时，它们已经远离了共享基础模型，其重叠度远低于实验 1 中最高的水平。这证实了静态流水线系统性地运行在低区域。

方法设计的启示：为了提高吸收效率，(i) 蒸馏必须在专家训练期间发生，而不是之后；(ii) 教师必须随着学生的进化而继续进化，以主动维持行为重叠；(iii) 特定能力的训练必须继续推开双方的距离，确保监督信号保留学生尚未掌握的信息。

3. 协同进化策略蒸馏（CoPD）方法设计

基于上述启示，作者提出了 CoPD 框架。以双分支为例，给定基础模型，CoPD 初始化两个平行的学习分支和，初始参数，分别关联能力数据集和。训练在两个阶段之间交替进行。

3.1 分支特定的 RLVR 阶段

在 RLVR 阶段，每个分支独立地在对应能力的数据上执行 GRPO，以深化特定领域的专业知识。对于提示，分支从其当前策略中采样一组轨迹，这些轨迹由特定能力的奖励函数进行评估。分支的 RLVR 目标定义为：

其中是组内标准化的优势值，是重要性采样比率。这一阶段逐渐将两个分支推向不同的能力前沿，在它们之间打开一个知识差距，供后续的相互蒸馏利用。

3.2 相互 OPD 阶段

在相互蒸馏阶段，每个分支在另一个分支的数据上生成同策略轨迹，并接收来自该分支的词元级监督。由于两个分支从相同的基础模型起步，并定期通过蒸馏对齐，它们的策略在整个训练过程中保持行为上的接近，因此监督信号落在每个分支都熟悉且易于吸收的状态上。

具体而言，分支从分支的数据集采样提示，并从生成轨迹。分支随后在词元级别评估这些轨迹。在位置，教师信号定义为：

跨分支更新的词元级优势值为，其中平衡跨分支蒸馏的相对贡献。关键在于，分支特定的 RLVR 在相互 OPD 期间并不暂停，而是交错进行。两个分支在每一步都交替扮演教师和学生的角色。

3.3 交替训练流程

CoPD 将上述两个阶段组织成个交替周期。在每个周期中，所有分支依次执行：

阶段 I：分支特定的 RLVR。每个分支在其自身数据上执行步 GRPO：

阶段 II：相互 OPD。每个分支执行步相互蒸馏：

超参数和决定了两个阶段之间的节奏。较大的允许分支积累更多差异化的发现，较大的导致更彻底的知识转移。由于所有分支保持紧密耦合，它们的参数不会发生剧烈发散。训练结束后，通过简单的参数合并（Parameter Merging）即可获得最终的统一模型：

对于的多分支扩展，CoPD 采用中心辐射（Hub-and-spoke）拓扑结构，选择一个分支作为共享枢纽，与每个辐条分支交换相互 OPD，避免了全连接对齐带来的计算开销。

4. 实验设置

训练数据与基准测试
作者在双分支（文本和图像推理）和三分支（引入视频推理）设置下评估了 CoPD。

文本推理：使用 Polaris-Dataset-53K，包含高质量数学推理问题。评估基准包括 AIME 2024、AIME 2025、HMMT 2025、MATH-500 和 Minerva Math。
图像推理：使用 MMFineReason-123K。评估基准包括 MMMU、MMMU-Pro、MathVista、MathVision、ZeroBench、WeMath 和 MathVerse。
视频推理：收集并过滤了 40K 中等难度的样本。评估基准包括 Video-Holmes、MVBench、MMVU 和 VideoMathQA。

模型与基线
实验基于 Qwen3-VL-4B-Instruct 模型。对比基线包括：

Text-Expert / Image-Expert / Video-Expert：在各自领域数据上独立通过 RLVR 训练的专家模型。
Mixed RLVR：将所有数据混合到一个池中训练单一模型。
Static OPD (V→T / T→V) ：先独立训练专家，然后将一个专家作为固定教师，向另一个分支进行单向 OPD。
MOPD：在三分支设置中，所有领域专家联合蒸馏到一个学生模型中。

实现细节
CoPD 基于 EasyVideoR1 框架实现。最大输入和输出长度均设置为 16,384 个词元。学习率固定为。Rollout 批次大小为 256，每个提示采样 8 个 rollout，温度为 1.0。裁剪边界设置为和。所有基线和 CoPD 使用相同的总训练步数以确保数据吞吐量一致。

5. 实验结果与分析

5.1 文本与图像推理的双分支协同进化

表 1 展示了文本和图像推理的主要结果。CoPD 在所有基线中取得了最佳的整体性能（57.71%）。

能力分歧的验证：与 Text-Expert（57.89%）相比，Mixed RLVR 在文本推理上的表现下降至 55.48%，证实了联合优化异构数据会产生跨领域干扰。
静态 OPD 的局限性：静态 OPD 避免了这种干扰。在 V→T 方向，图像和文本推理均优于 Mixed RLVR，但文本推理（56.23%）仍远低于 Text-Expert。在 T→V 方向，尽管图像推理受益于文本专家的指导，但 Text-Expert 强大的文本能力在蒸馏后的模型中仅保留了 56.09%。这表明，由于专家偏离学生太远，教师的大部分知识未能通过事后蒸馏传递给学生。
CoPD 的优势：相比之下，CoPD 同时提升了图像推理（56.97%）和文本推理（58.76%），在两侧均超越了专门针对单一领域训练的专家模型，实现了真正的互利共赢。

5.2 扩展至文本、图像和视频推理的三分支协同进化

表 2 将 CoPD 扩展到三分支设置。结果趋势与表 1 一致：CoPD 取得了最佳的整体性能（58.12%），并在主要能力组上优于 MOPD。

值得注意的是，MOPD 在视频推理上的表现（58.32%）不及 Video-Expert（58.75%），证实了随着能力分支数量的增加，静态多教师蒸馏难以吸收所有专家的知识。
Mixed RLVR 在基线中取得了最高的视频平均分（59.62%），但这以牺牲文本推理（55.39%）为代价，再次展现了能力分歧。
CoPD 避免了这种权衡，通过共同进化三个分支，在不牺牲任何单一领域的情况下巩固了它们的能力。

5.3 消融实验与动态分析

组件消融：表 3 研究了 CoPD 中各组件的贡献。移除 I-OPD（来自图像分支的蒸馏）导致文本推理从 58.76% 降至 57.41%；移除 T-OPD 导致图像推理从 56.97% 降至 56.48%。这证实了双向相互 OPD 的必要性。作者还对合并（Merge）操作进行了消融。即使不进行合并，仅保留文本分支或图像分支，其单分支的整体性能（57.24% 和 56.94%）也已经超越了表 1 中的静态 OPD 变体，表明协同进化本身就能产生能力全面的分支。合并操作进一步巩固了互补优势。

训练期间的行为模式一致性：图 4 (a) 和 (b) 追踪了训练期间两个分支之间的 Top- 词元重叠度和对称 KL 散度。在静态 OPD 基线中，重叠度单调下降，KL 散度上升了一个数量级。而在 CoPD 中，Top- 重叠度在每个 RLVR 阶段下降，但在相互 OPD 期间恢复，整个训练过程中保持在 0.90 以上。对称 KL 散度始终保持在低位。这证实了 CoPD 的核心设计：RLVR 创造了使蒸馏具有信息量的分歧，而相互 OPD 恢复了使其易于吸收的接近度。

比例的影响：图 4 (c) 分析了 RLVR 探索步数与 OPD 巩固步数比例的影响。在不同比例下，CoPD 始终优于静态 OPD。其中，取得了最佳的整体准确率。这表明需要足够的特定分支探索来创造有用的互补知识，但过长的探索可能会削弱分支之间的对齐，降低后续蒸馏的有效性。

6. 讨论与相关工作

大型模型的 RLVR
基于可验证奖励的强化学习（RLVR）已成为激发大型模型推理能力的主导范式，取代了基于规则的奖励模型。GRPO 消除了对独立价值网络的需求，使得大规模 RLVR 训练变得可行。本文的工作探索了如何在 RLVR 框架内同时容纳多种能力，解决了多领域联合训练中的梯度冲突问题。

同策略蒸馏（On-Policy Distillation）
同策略蒸馏在学生自身生成的轨迹上提供教师监督，缓解了离策略方法固有的训练-推理分布不匹配问题。多教师 OPD（MOPD）被广泛用于基础模型的后训练。本文的导向性实验从学生采样温度控制重叠度的角度，揭示了静态 MOPD 存在行为不匹配的局限性。CoPD 将蒸馏从训练“后”提前到训练“中”，在保持互补知识差距的同时，使师生在行为上保持接近。

Self-Taught RLVR 系列研究
本文是作者团队“Self-Taught RLVR”系列研究的第三部分，旨在探讨 LLM 如何更好地向自身学习并自我进化。第一部分 RLSD 研究了“知情自我（informed self）”；第二部分 NPO 关注“时间自我（temporal self）”；本文则探索了“平行自我（parallel self）”——平行的自我相互传授知识。

7. 总结

本文探讨了一个核心问题：如何更好地将多个专家的能力吸收到一个单一模型中？作者发现，传统的混合数据 RLVR 面临能力分歧成本，而传统的静态 OPD 流水线则面临吸收效率低下的问题。为此，本文提出了协同进化策略蒸馏（CoPD），其核心思想是：专家之间的蒸馏应该在训练期间发生，而不是在训练之后；多个专家模型应该互为师生，协同进化。

每个专家的对应分支在自身数据上执行 RLVR 以探索能力前沿，并穿插来自其他专家的相互 OPD 以拉近行为模式，使其更易于相互学习。实验验证了 CoPD 实现了多专家能力的全能整合，甚至优于各自的专家模型。CoPD 展现出的强大性能提供了一个引人入胜的视角：模型并行训练（Model parallel training）可能成为进一步拓宽模型能力边界的一种极具前景的扩展范式（Scaling Paradigm）。

更多细节请阅读原文。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

中科院京东新作 CoPD：混合训练能力打架，先训后蒸馏吸收不了——第三条路怎么走

TL;DR

1. 引言

2. 现有范式的统一视角与实证分析

2.1 现有范式的统一视角

2.2 行为假设与可测量指标

2.3 导向性实验（Pilot Study）

3. 协同进化策略蒸馏（CoPD）方法设计

3.1 分支特定的 RLVR 阶段

3.2 相互 OPD 阶段

3.3 交替训练流程

4. 实验设置

5. 实验结果与分析

5.1 文本与图像推理的双分支协同进化

5.2 扩展至文本、图像和视频推理的三分支协同进化

5.3 消融实验与动态分析

6. 讨论与相关工作

7. 总结

随机文章

中科院京东新作 CoPD：混合训练能力打架，先训后蒸馏吸收不了——第三条路怎么走

TL;DR

1. 引言

2. 现有范式的统一视角与实证分析

2.1 现有范式的统一视角

2.2 行为假设与可测量指标

2.3 导向性实验（Pilot Study）

3. 协同进化策略蒸馏（CoPD）方法设计

3.1 分支特定的 RLVR 阶段

3.2 相互 OPD 阶段

3.3 交替训练流程

4. 实验设置

5. 实验结果与分析

5.1 文本与图像推理的双分支协同进化

5.2 扩展至文本、图像和视频推理的三分支协同进化

5.3 消融实验与动态分析

6. 讨论与相关工作

7. 总结

猜你喜欢

随机文章