论文标题：On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
论文链接：https://arxiv.org/pdf/2602.03392

TL;DR

今天解读一篇来自通义实验室的一篇文章《On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models》。

该研究针对强化微调（Reinforcement Fine-Tuning, RFT）过程中普遍存在的熵坍塌（Entropy Collapse）现象，建立了一套理论分析框架。作者推导了单个Logit更新对策略熵的一阶影响，提出了“熵判别器分数”（Entropy Discriminator Score, ）这一核心概念。

理论表明，熵的变化方向由更新方向（奖励/惩罚）与的符号共同决定。基于此，论文解释了为何奖励高置信度“安全”回复会导致探索能力丧失，并统一了现有多种熵控制方法的理论解释。最终，作者提出了两种基于的梯度截断算法（和），在不引入额外超参调试的情况下，有效缓解了熵坍塌，显著提升了模型在数学推理任务中的探索能力（Pass@K）。

1. 引言

随着 DeepSeek-R1 等工作的涌现，强化微调（RFT）已成为提升大语言模型（LLM）推理能力的关键范式。不同于监督微调（SFT），RFT 将微调过程转化为策略优化问题，通过奖励信号激励模型生成高质量回复。GRPO 作为其中的代表性算法，因其高效性和稳定性被广泛采用。

然而，RFT 面临着经典的“探索-利用”（Exploration-Exploitation）权衡难题。在实践中，研究人员经常观察到熵坍塌（Entropy Collapse）现象：随着训练进行，策略的输出分布迅速尖锐化，模型倾向于生成重复的、高置信度的“安全”回复，导致多样性丧失，最终陷入局部最优。

尽管近期出现了一些监测和调整熵的启发式方法（如熵正则化、概率加权更新等），但学界对于 RFT 过程中熵动力学（Entropy Dynamics）的内在机理缺乏原则性的理解。

为什么奖励高分回复往往会导致熵迅速下降？
单个 Token 的更新如何具体影响整体策略的熵？
如何从理论层面设计更有效的熵控制机制？

2. 理论框架：从微观视角剖析熵动力学

论文的核心贡献在于建立了一个描述 Token 级别熵变化的理论模型。作者采用自底向上的分析路径：首先量化单个 Logit 更新引起的熵变，然后扩展到 GRPO 的优化步。

2.1 基础定义

考虑词表大小为的策略，在时间步的输出 Logits 为。概率分布由 Softmax 函数给出：

该分布的香农熵定义为：

2.2 单个 Logit 扰动对分布的影响

为了理解动力学，首先需要分析最基本的原子操作：对第个 Token 的 Logit 进行扰动。
设扰动为，其中是标准基向量，代表优化步长及方向（表示奖励/增加 Logit，表示惩罚）。

引理 3.1 (概率的一阶变化):
给定 Logit 扰动，概率分布的一阶变化为：

这个引理直观地说明了 Softmax 的性质：增加某个 Token 的 Logit 会增加其概率，并按比例从其他所有 Token 处“抽取”概率质量。

2.3 熵判别器分数与熵的一阶变化

基于引理 3.1，论文推导出了核心定理，量化了熵的变化。在此之前，定义熵判别器（Entropy Discriminator）：
对于词表中任意 Token ，定义其判别器分数为：

对于被选中的目标 Token ，简记为。

定理 3.2 (熵的一阶变化):
在扰动下，熵的一阶变化为：

深度解析的物理含义：
公式揭示了熵变化的决定性因素。熵增还是熵减，取决于更新方向和判别器的符号。

的符号由决定：

当且仅当 ：即该 Token 是相对高概率的（高于“平均”概率）。
当且仅当 ：即该 Token 是相对低概率的。

推论：

奖励高概率 Token (): 此时，导致。这是导致 RFT 中熵坍塌的主要原因——模型倾向于利用已知的高概率路径，奖励这些路径会进一步降低熵。
奖励低概率 Token (): 此时，导致。这是“探索”的过程，奖励模型未曾确信的路径会增加熵。
惩罚高概率 Token (): 此时，导致。这迫使模型放弃当前的固守，寻找新解。

2.4 扩展至 GRPO 优化步

在实际的 GRPO 训练中，目标函数涉及优势函数和重要性采样比率。对于单个 Token 的更新：

其中有效步长 ( 为学习率)。

定理 3.3 (GRPO 下的熵变化):

这里出现了一个关键的变化：在完整的梯度更新下（考虑了 Logit 更新对所有的影响），熵的变化不再仅取决于的绝对值，而是取决于 相对于其期望的偏差。

这一公式不仅更加精确，还揭示了动态基线的存在。系统会根据当前的策略分布状态（由体现）来衡量特定 Token 更新对熵的影响。

关键推论 (Corollary 3.4 & 3.5):
在 On-policy 采样下，熵变化因子的期望为零：

这意味着，如果优势与 Token 的选择无关（即随机奖励），从统计期望上看，GRPO 更新不会导致熵的系统性漂移。

然而，熵为何还是坍塌了？
结合附录 C 的分析，批量（Batch）级别的熵变化期望可以表示为：

熵坍塌的根本原因在于 优势与之间存在正相关性。

模型倾向于对高概率（"Safe"）的回复给出正确答案，从而获得正优势。
高概率 Token 往往具有较高的（即）。
因此，协方差项为正，导致整体为负。

这一理论解释了 RFT 训练中“成功导致保守，保守导致坍塌”的循环。

3. 现有熵控制方法的统一视角

3.1 梯度截断 (Clipping Mechanisms)

如 PPO 或 GRPO 中的 -clip，或 DAPO 中的 Clip-higher。

机制： 限制重要性采样比率的范围。
理论解释： 截断主要发生在偏离 1 的时候。对于正样本（），如果过大（意味着当前策略比采样策略更确信该 Token），通常对应较高的情况。此时往往较大，本应导致大幅熵减。截断机制限制了这部分更新，从而缓解了熵减。

3.2 熵正则化 (Entropy Regularization)

如 Wang et al. (2025) 提出的仅更新高熵 Token。

机制： 仅对高的 Token 进行梯度更新。
理论解释： 高熵位置通常意味着模型不确定。根据定理 3.3，在这些位置更新正样本会减少熵，更新负样本会增加熵。通过筛选高熵 Token，实际上是在控制的分布范围，防止极端的 Logit 更新。

3.3 概率加权更新 (Probability Weighted Updating)

如 He et al. (2025) 对低概率正样本赋予更高权重。

机制： 放大低 Token 的更新权重。
理论解释： 低概率 Token 对应。对于正样本（），根据，此时（熵增）。放大这些样本的权重，就是直接放大熵增的更新分量，从而强力对抗熵坍塌。

4. 基于熵判别器的截断 ( & )

既然（及其相对于期望的偏差）是熵变化的精确指示器，作者提出直接利用这一指标来过滤掉那些导致熵剧烈波动的“离群”更新，特别是导致熵恶性下降的更新。

作者设计了两种截断策略，核心思想是：如果某个 Token 的熵判别器分数过于极端，就将其梯度置零（Mask）。

4.1 : Batch-Normalized Entropy-Discriminator Clipping

这是一种计算高效的方法，利用 Batch 内的统计数据进行归一化。

算法流程：

对于 Batch 中的所有 Token，计算其判别器分数。
计算 Batch 内的均值和标准差。
生成梯度掩码：
仅保留的 Token 的梯度。

特点：

计算量极小（仅标量运算）。
不需要额外的模型前向传播。
通过控制对“熵减主力军”（高 Token）的抑制。

4.2 : Vocabulary-Normalized Entropy-Discriminator Clipping

这是一种理论上更严谨的方法，直接利用定理 3.3 中的词表期望项。

算法流程：

计算词表中心化的分数。
- 注：需要利用全词表 Logits 计算，通常在计算熵时已顺带得到。
计算该中心化分数在 Batch 内的标准差（注：根据推论 3.5，其均值期望为 0）。
生成梯度掩码：

特点：

更贴合定理 3.3 的物理意义。
能够更精准地定位那些相对于当前分布“异常”的更新。

5. 实验

实验主要在 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 上进行，基准数据集为 DAPO-Math-17k（包含数学推理任务）。评估指标侧重于 AIME24/25 和 DAPO500 测试集上的 Pass@K（衡量探索能力/多样性）和 Avg@K（衡量平均准确率/利用能力）。

5.1 熵动力学的实证观察

论文首先验证了对熵变方向的预测能力。

结果显示：

仅保留的正样本更新，熵迅速下降。
仅保留的正样本更新，熵显著上升。
这与理论预测完全一致，证明是控制熵的有效“旋钮”。

5.2 截断方法的效果

对比 Vanilla GRPO、和。

熵的稳定性： Vanilla GRPO 的熵在训练早期迅速下降并维持在极低水平。而 Clip 方法通过调节，成功将熵维持在较高且稳定的水平。
性能提升：

实验数据表明（以 Qwen2.5-7B 在 AIME24 为例）：

Pass@K 显著提升： GRPO 为 50.00，达到 56.67 (+6.67)，达到 53.33。这直接证明了模型探索到了更多样化的解题路径。
Avg@K 同步提升： 并没有因为保留了多样性而牺牲准确率，反而因为探索能力的增强促进了更好的利用。

5.3 探索与利用的深入分析

论文通过分析问题通过率的分布，进一步揭示了性能提升的来源。

Vanilla GRPO: 分布呈“两极化”。大量问题要么全对（通过率1.0，过度利用），要么全错（通过率0.0，缺乏探索）。
Clip 方法: 中间段通过率的问题比例显著增加。这意味着模型并没有简单地记忆简单题，而是通过保持探索性，尝试解决那些原本无法解决的困难问题。

5.4 泛化性验证

PPO 算法： 附录实验表明，该方法同样适用于 PPO，证明了理论的普适性。
不同模型： 在 DeepSeek-Distill-Llama-8B 和 InternLM3-8B 上同样取得了性能提升，特别是在 InternLM 上，Clip 方法成功拯救了原本训练崩溃（Training Collapse）的情况。

更多细节请阅读原文。

往期文章：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

大语言模型强化微调中的熵动力学分析

TL;DR

1. 引言

2. 理论框架：从微观视角剖析熵动力学

2.1 基础定义

2.2 单个 Logit 扰动对分布的影响

2.3 熵判别器分数与熵的一阶变化

2.4 扩展至 GRPO 优化步

3. 现有熵控制方法的统一视角

3.1 梯度截断 (Clipping Mechanisms)

3.2 熵正则化 (Entropy Regularization)

3.3 概率加权更新 (Probability Weighted Updating)

4. 基于熵判别器的截断 ( & )

4.1 : Batch-Normalized Entropy-Discriminator Clipping

4.2 : Vocabulary-Normalized Entropy-Discriminator Clipping

5. 实验

5.1 熵动力学的实证观察

5.2 截断方法的效果

5.3 探索与利用的深入分析

5.4 泛化性验证

专题展示

大语言模型强化微调中的熵动力学分析

TL;DR

1. 引言

2. 理论框架：从微观视角剖析熵动力学

2.1 基础定义

2.2 单个 Logit 扰动对分布的影响

2.3 熵判别器分数 与熵的一阶变化

2.4 扩展至 GRPO 优化步

3. 现有熵控制方法的统一视角

3.1 梯度截断 (Clipping Mechanisms)

3.2 熵正则化 (Entropy Regularization)

3.3 概率加权更新 (Probability Weighted Updating)

4. 基于熵判别器的截断 ( & )

4.1 : Batch-Normalized Entropy-Discriminator Clipping

4.2 : Vocabulary-Normalized Entropy-Discriminator Clipping

5. 实验

5.1 熵动力学的实证观察

5.2 截断方法的效果

5.3 探索与利用的深入分析

5.4 泛化性验证

猜你喜欢

专题展示

2.3 熵判别器分数与熵的一阶变化