周志华团队新作：通过IRL挖掘LLM内生奖励，首次理论证明RL对LLM有效性

大型语言模型（LLMs）的“对齐”（Alignment）是确保其行为符合人类价值观和期望的关键技术，其核心在于奖励模型（Reward Model, RM）的构建。传统上，训练一个高质量的奖励模型需要大量昂贵且难以扩展的人工标注偏好数据。近期，虽然有研究探索使用AI反馈来替代人类反馈，但这些方法往往缺乏坚实的理论基础。

本文介绍的研究工作，来自南京大学的研究团队，提出了一个新颖的观点：一个强大且通用的奖励模型，并非需要从外部数据中学习构建，而是作为一种“内生”（Endogenous）属性，早已潜在于任何通过标准“下一个词元预测”（next-token prediction）任务训练的LLM之中。

研究者们从理论上证明，这种“内生奖励”并非一种启发式方法，而是等价于通过“离线逆向强化学习”（offline inverse reinforcement learning, IRL）学到的奖励函数。 这一深刻的理论连接，使得我们能够直接从一个基础的LLM（无论是预训练模型还是经过监督微调的模型）中，无需任何额外训练，就能提取出高质量的奖励信号。

更关键的是，该研究进一步从理论上证明了，使用这种内生奖励进行后续的强化学习，能够得到一个在误差界上优于原始基础模型的策略。这是首次为强化学习在LLM对齐任务上的有效性提供了理论证明。实验结果充分验证了这一理论，表明该方法不仅优于现有的“LLM即判断者”（LLM-as-a-judge）方法，在某些任务上甚至能超越那些使用显式人类偏好数据训练的专用奖励模型。

这些发现预示着，LLM对齐流程中独立的“奖励建模”阶段，可能被一个更有原则、更高效的知识提取过程所取代，为实现更高效、强大且可扩展的LLM及多模态模型的对齐开启了新的可能性。

论文标题：GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
论文链接：https://arxiv.org/pdf/2506.23235

1. 引言：LLM对齐的现有范式与挑战

将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人、诚实无害）对齐，是人工智能发展中的核心挑战之一。目前，主流的对齐技术是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。RLHF流程通常分为三个阶段：

监督微调（Supervised Fine-Tuning, SFT）：在一个高质量的、由人类编写的对话或指令数据集上微调预训练的LLM，使其初步具备理解和遵循指令的能力。
奖励建模（Reward Modeling, RM）：这是RLHF的核心。首先，让SFT模型对一系列输入（prompt）生成多个不同的回答。然后，由人类标注者根据预设的标准（如帮助性、相关性、安全性）对这些回答进行排序。最后，利用这些成对的偏好数据（例如，回答A优于回答B）来训练一个独立的奖励模型。这个RM学会了给任意的“输入-回答”对打分，分数的高低代表了其符合人类偏好的程度。
强化学习（Reinforcement Learning, RL）：将训练好的奖励模型作为环境的奖励函数，使用强化学习算法（如PPO）来进一步微调SFT模型。优化的目标是让LLM生成的回答能够在奖励模型那里获得更高的分数，同时通过KL散度惩罚项防止模型偏离SFT阶段学到的知识太远，避免“奖励滥用”（reward hacking）。

这个流程的成功，在很大程度上依赖于第二阶段——奖励模型的质量。一个高质量的RM是实现有效对齐的基石。然而，构建这样一个RM需要收集大规模、高质量的人类偏好数据集，这个过程极其缓慢、昂贵，且难以规模化。

为了解决对人类标注的依赖，研究界探索了多种替代方案。其中一个突出的方向是基于AI反馈的强化学习（Reinforcement Learning from AI Feedback, RLAIF），以及更广为人知的“LLM即判断者”（LLM-as-a-judge）框架。其核心思想是，使用一个更强大、能力更强的闭源LLM（如GPT-4）来代替人类标注者，为较小模型的输出生成奖励信号或偏好标签。

虽然这些方法在成本效益上表现出色，但它们通常被认为是启发式的（heuristic）。它们缺乏严格的理论基础，并且存在一个固有风险：学生模型可能会继承教师模型的风格怪癖和内在偏见。

这一切引发了一个根本性的问题：一个高质量的奖励信号，是否必须从外部（无论是人类还是更强的AI）获取？

2. 内生奖励——大语言模型中潜藏的通用奖励模型

这篇论文的核心贡献，正是对上述问题给出了一个出乎意料的答案。研究者们发现，一个强大的通用奖励模型并非需要外部构建，而是可以被“发现”的，因为它早已潜在于任何通过标准下一个词元预测（next-token prediction）训练的语言模型内部。他们将这种内在的奖励信号称为“内生奖励”（Endogenous Reward）。

2.1 从逆向强化学习到内生奖励

为了理解“内生奖励”的来源，我们需要回顾一下LLM训练的基础目标和一种称为“逆向强化学习”（Inverse Reinforcement Learning, IRL）的机器学习范式。

2.1.1 模仿学习的视角

LLM的训练，无论是预训练阶段使用海量网络文本，还是SFT阶段使用高质量人工数据，其核心目标函数都是最大化下一个词元的对数似然。给定一个由词元序列组成的专家数据集，其优化目标可以表示为：

其中，是第个样本在第步的上下文序列，是专家在该上下文后选择的下一个词元，是LLM的策略。

从模仿学习（Imitation Learning, IL）的视角来看，这个过程本质上是行为克隆（Behavior Cloning）。模型试图直接模仿专家在给定状态（上下文）下所采取的行动（选择下一个词元）。

2.1.2 逆向强化学习（IRL）

与强化学习（RL）从已知的奖励函数中学习最优策略相反，逆向强化学习（IRL）试图解决其“逆问题”：给定专家的行为示范，推断出专家背后可能遵循的奖励函数。其基本假设是，专家的行为（或策略）在该未知奖励函数下是（近）最优的。

在众多IRL方法中，最大熵IRL（Maximum Entropy IRL）是一个具有坚实理论基础的流派。它旨在找到一个能够最好地解释专家行为的奖励函数，同时对数据中未观察到的行为做出最少假设（即熵最大化）。其优化目标通常是一个minimax问题：

这个公式的含义是：寻找一个奖励函数，使得专家策略的期望累积回报，与在该奖励下最优的策略的期望累积回报（加上一个熵正则项）之间的差距最大化。

2.1.3 下一个词元预测恢复了IRL的解

传统上，直接应用IRL（尤其是在需要与环境交互的在线场景中）计算成本非常高。然而，本文研究者借鉴了基于逆向软Q学习（inverse soft Q-learning）的离线IRL方法。这种方法旨在从一个静态的专家数据集中，找到一个能够最好地解释该数据的Q函数。其优化目标如下：

通过一个简单的log-of-exponent变换，上述目标可以被重写为一个最大似然问题：

我们注意到，log内部的项正是 softmax 函数的形式。如果我们定义一个策略，那么这个优化问题就变成了寻找一个Q函数，使得其对应的策略在专家数据集上的似然最大化。

这正是LLM通过下一个词元预测进行训练所做的事情！

一个标准的LLM，其输出概率分布通常是通过对其最终隐藏层输出的logits应用softmax函数得到的。也就是说，LLM的策略可以表示为：

其中是模型计算出的logits函数，是温度参数（通常为1）。由于LLM的训练目标就是最大化数据似然，那么根据定义，它学到的策略就是最大似然解。因此，其底层的logits函数 就是我们寻找的那个离线IRL问题的最优Q函数解。

这便是这篇论文的理论基石，其命题1正式阐述了这一点：

命题1：设是一个在数据集上通过下一个词元预测训练的语言模型，其策略为，其中是模型的logits函数。那么，这个logits函数是上述 principled offline IRL 目标的一个解。

这个发现统一了模型的“生成”与“评估”能力：模型的策略（基于softmax(logits)）负责生成内容，而其logits 本身（作为Q函数）则负责评估（打分）。

2.2 内生奖励的计算与特性

一旦建立了logits就是Q函数的连接，我们就可以使用逆向软贝尔曼算子（inverse soft Bellman operator）从这个最优Q函数（即模型的logits ）中恢复出对应的奖励函数：

将代入，我们便得到了内生奖励 的计算公式：

让我们来解读一下这个公式。

第一项是模型在状态下，选择动作（即生成词元）的logit值。
第二项可以定义为一个值函数 ，它代表了在状态下所有可能动作的期望未来回报的“软”最大值。
由于，我们可以推导出。

将这些关系代入，内生奖励可以被写成一个更直观的形式：

这个形式揭示了内生奖励的几个重要特性：

奖励塑形（Reward Shaping）：内生奖励可以看作是对一个基础奖励（即模型生成该词元的对数概率）进行奖励塑形的结果，其塑形势函数（potential function）为。根据奖励塑形的理论，使用和进行强化学习会得到完全相同的最优策略。
结果奖励（Outcome Reward）：对于一个完整的生成序列（响应），其总的内生奖励可以通过将每一步的奖励相加得到。由于中间的项会形成一个伸缩和（telescoping sum）并相互抵消，最终的总奖励为：

如果我们假设在序列结束后，并且注意到，那么总奖励就等于：

这个公式直观地表明，一个响应的总奖励主要由其在模型下的整体生成概率决定（对数形式），再加上一个只与初始输入prompt 相关的偏置项。如果一个响应在模型的训练数据（如海量的预训练语料）中频繁出现，模型为其赋予的生成概率就会更高，从而其内生奖励值也更高。

与现有生成式奖励模型的关联：该框架为现有的“生成式奖励模型”提供了理论依据。例如，一些工作使用prompt（如“这个回答是否正确？”）并计算模型生成“是”这个词元的概率作为奖励。这可以看作是内生奖励框架的一个特例，其中状态包含了原始问题、回答以及附加的prompt，而动作就是“是”。内生奖励理论为这些方法的有效性提供了更根本的解释。

3. 内生奖励的有效性

论文不仅提出了内生奖励的概念，还从理论上证明了其有效性以及使用它进行自提升的可行性。

3.1 奖励误差分析

建立奖励模型的一个主要目的是进行成对比较（判断哪个响应更好）。因此，论文分析了使用内生奖励进行偏好预测的性能。假设存在一个未知的“真实”奖励函数，专家策略是在该奖励下的熵正则化最优策略。我们无法直接比较和的绝对误差，因为存在奖励模糊性（多个奖励函数可能对应同一个最优策略）。

但我们可以分析由这两个奖励函数导出的偏好分布之间的差异。遵循Bradley-Terry模型，由奖励诱导的对两个响应的偏好概率为，其中是sigmoid函数。论文证明了以下定理：

定理1：在token级MDP中，假设专家策略是未知真实奖励下的熵正则化最优策略。是通过下一个词元预测训练的策略，是其对应的内生奖励。对于任意一对响应，我们有：

其中是总变分距离，是两个策略在对数概率上的最大差异。

定理1表明，如果用于提取奖励的LLM策略在对数概率上与潜在的专家策略足够接近，那么由内生奖励导出的偏好分布也将与由真实奖励导出的偏好分布非常接近。这说明，内生奖励能够有效地继承基础模型从训练数据中学到的偏好信息。

3.2 基于内生奖励的强化学习分析

提取奖励的最终目的是用它来训练一个更好的策略。论文分析了使用内生奖励进行强化学习（得到新策略）相较于直接使用基础模型（即行为克隆）的优劣。

定理2：在与定理1相同的设定下，我们有：

其中表示策略在真实奖励下的策略价值，H是响应长度。

定理2是本文一个非常关键的理论结果。它揭示了强化学习在LLM对齐中的一个根本优势：

直接使用SFT模型（行为克隆），其次优性界（sub-optimality bound）与响应长度的平方成正比，即。这反映了模仿学习中著名的“复合误差”（compounding errors）问题：在生成长序列时，每一步的微小误差会不断累积，导致模型偏离专家轨迹越来越远。
而使用内生奖励进行RL fine-tuning后得到的策略，其次优性界与呈线性关系，即。这种改进是因为，RL不再是盲目地模仿每一步的动作，而是通过恢复底层的奖励函数来学习一个最优策略，从而有效地消除了复合误差问题。

这个定理首次为“使用RL可以改进SFT模型”这一行业普遍实践，提供了严格的理论证明。

3.3 迭代改进的局限性

一个自然的问题是：这个自提升过程能否无限迭代？即，我们能否从改进后的策略中再提取其内生奖励，进行第二轮RL，获得进一步提升？

答案是否定的。根据构造，策略已经是关于其提取来源的奖励函数的最优策略。因此，从中提取出的内生奖励，正是那个它自己已经对其最优的奖励。再进行一轮RL步骤不会产生任何变化，过程会立即收敛。

4. 实验验证

为了证实上述理论，研究者们设计了三个核心研究问题（Q1-Q3）并进行了一系列实验。

Q1: 与启发式基线和显式训练的奖励模型相比，免训练的内生奖励模型（EndoRM）在常见的RM基准测试上表现如何？
Q2: 内生奖励是否具有强大的指令遵循能力，可以作为一个可被prompt的通用奖励模型？
Q3: 使用内生奖励进行强化学习是否能产生一个更好的策略，实现理论预测的自我提升？

实验设置

基础模型: 实验中的所有免训练方法（包括EndoRM）都使用 Qwen2.5-7B-Instruct 作为基础模型，以保证公平比较。
数据集:
- RM-Bench: 用于评估RM的通用性能。
- Multifaceted-Bench & Domain-Specific Preference (DSP): 用于评估RM在多样化、特定领域偏好下的表现以及指令遵循能力。
- MATH-lighteval: 用于RL自提升实验的训练数据集。
基线模型:
- 免训练基线: Generative Verifier, GenRM-Pairwise, GenRM-Pointwise。
- 显式训练的RM: Skywork-Reward, Nemotron-340B-Reward等四个SOTA模型。

4.1 Q1: 在多样化偏好对上的奖励准确性

在RM-Bench上的实验结果如下表所示，评估指标为响应分类准确率。

从Table 1可以看出：

EndoRM显著优于所有免训练基线。在使用相同基础模型的情况下，EndoRM的平均准确率达到了70.2%，远超其他方法。
EndoRM超越了SOTA的显式训练RM。EndoRM的平均分甚至高于那些需要昂贵偏好数据进行专门训练的SOTA奖励模型（最高为70.1%）。

在包含数千种用户偏好的Multifaceted-Bench上的结果如下图所示。

Figure 1 显示，在所有五个领域中，EndoRM都一致性地超越了所有基线方法。这表明，随着任务复杂度和偏好多样性的增加，EndoRM展现出强大的可扩展性和鲁棒性。这些结果有力地支持了论文的核心假设：一个强大的奖励信号早已潜在于基础模型中。

4.2 Q2: 验证指令遵循能力

为了验证内生奖励是否是静态的，还是可以像LLM本身一样通过prompt进行动态控制，研究者在DSP数据集上进行了交叉域评估。他们为四个不同领域（学术、商业、文学艺术、娱乐）创建了四个特定领域的EndoRM，方法仅仅是在评估时提供相应的系统prompt。

Table 2 的结果呈现出非常强的对角线模式。例如，被赋予学术领域prompt的EndoRM-Academy在学术数据集上取得了最高的76.89%准确率，而在其他领域数据集上表现则较差。这清晰地证明，内生奖励并非一个固定的评估器，而是一个动态、可prompt的判断者，它继承了基础LLM强大的指令遵循能力。

4.3 Q3: 通过强化学习实现自我提升

最后，为了验证定理2的理论预测，研究者在MATH-lighteval数据集上，使用EndoRM对基础模型Qwen2.5-Math-7B进行了RL微调（RLFT）。

Table 3 的结果显示，经过RLFT后，模型在全部五个数学推理基准测试上都取得了一致的性能提升，平均分从33.0%提高到38.8%（提升了5.8%）。这有力地证实了理论预测：使用内生奖励进行RL，可以通过缓解复合误差问题，有效地提升基础模型的性能，实现自我提升。

点评

南大周志华、俞扬老师组的工作，理论扎实，值得一试。

文章有以下几个贡献：

建立“next token prediction”与“离线IRL”的等价性：这是本文最核心的理论贡献。它揭示了LLM的logits函数本质上是其训练数据所隐含的奖励函数的软Q函数（soft Q-function）。
为RL优于模仿学习提供理论证明：论文中的定理2（ vs 误差界）极其关键。长期以来，业界普遍认为RLHF比单纯的SFT（一种模仿学习）效果更好，但这更多是基于经验观察。该定理首次从理论上清晰地阐明了RL的优势在于克服了模仿学习中的“复合误差”问题，从而为RLHF流程的有效性提供了根本性的理论支持。

待探讨的问题：

该方法的核心是“挖掘”而非“创造”。因此，内生奖励的质量完全取决于基础模型的质量和其训练数据。如果基础模型本身存在事实性错误、偏见或价值观偏差，那么提取出的内生奖励也会继承甚至在RL的自我强化循环中放大这些缺陷。这构成了一个“自我参照”的闭环，模型的认知无法超越其初始训练数据的边界。简单来说，就是“垃圾进，垃圾出”（Garbage in, garbage out）。

往期文章：

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30