
-
论文标题:Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning -
论文链接:https://arxiv.org/pdf/2512.20605
TL;DR
Google DeepMind 团队近期提出了一种利用预训练自回归模型内部表示进行层级强化学习(Hierarchical RL)的新方法。该研究的核心发现是:虽然自回归模型(如 Transformer 和 SSM)仅通过“下一个 token 预测”任务进行训练,但其内部残差流(Residual Stream)中自然涌现出了线性可控的时序抽象(Temporally-abstract actions),即对应于长跨度子目标的潜在表示。
基于此发现,作者提出了一种名为 Internal RL(内部强化学习) 的范式。该方法首先通过一个无监督的 元控制器(Metacontroller) 提取模型内部的时序抽象,然后在该潜在空间而非原始动作空间中进行强化学习。实验表明,在稀疏奖励的层级化任务(Grid World 和 MuJoCo Ant)中,Internal RL 能够有效解决标准 RL 微调(如 PPO、GRPO)无法解决的探索难题,实现了比基线方法高出数个数量级的样本效率。这一工作为在基础模型(Foundation Models)中实现高效的层级规划和推理提供了新的视角。
1. 引言
当前人工智能的进展主要由大规模自回归序列模型驱动。这些模型通过海量数据集上的下一个 token 预测(Next-token prediction)任务进行预训练,随后通常通过强化学习(RL)进行微调以对齐人类偏好或提升特定任务能力。
然而,在处理长程、稀疏奖励的任务时,现有的 RL 微调范式面临显著挑战。自回归模型逐 token(token-by-token)生成的特性决定了其探索空间是基于局部 token 变化的。这种局部的抖动(Jittering)很难在需要长时间跨度规划的任务中触及稀疏的奖励信号。例如,在一个需要连续完成多个子目标的导航任务中,如果仅靠 token 级别的随机采样,模型几乎不可能偶然完成整个序列从而获得奖励。
针对这一问题,层级强化学习(Hierarchical RL, HRL)长期以来一直试图通过引入“选项”(Options)或子程序(Subroutines)的概念来在更高的时间抽象层面上进行探索。但传统的深度 HRL 方法(如 Option-Critic)往往面临发现有效子目标的困难,经常收敛到退化的解。
本文探讨了一个替代假设:自回归模型在预训练过程中,为了更准确地预测下一个 token,已经在其内部激活(Internal Activations)中隐式地学习了时序抽象。 如果这一假设成立,我们就不需要从头学习抽象动作,而是只需要提取并利用模型内部已有的抽象表示。
基于此,研究团队设计了一套完整的机制,包括:
-
机制可解释性分析:验证内部抽象的存在性。 -
无监督元控制器:自动发现并离散化时序抽象。 -
Internal RL:在提取的抽象空间中进行策略优化。
2. 自回归模型中的隐式时序抽象
在介绍具体方法前,首先需要验证核心假设:预训练模型是否真的在没有显式监督的情况下学习了关于子目标的抽象表示?
2.1 实验环境与数据设置
研究者构建了两类具有层级结构的导航任务:
-
Gridworld-pinpad:离散动作空间的网格世界。 -
Ant-pinpad:基于 MuJoCo 的连续控制任务(四足机器人 Ant)。

任务要求智能体按照特定顺序访问一系列颜色标记的子目标(Subgoals)。训练数据 由专家策略生成的 序列组成,不包含任何奖励信息或子目标标签。模型架构涵盖了标准的 Causal Transformer 和基于状态空间模型(SSM)的 Hawk 架构。
2.2 线性探测(Linear Probing)
为了探究模型内部是否编码了当前的子目标信息,研究者在预训练模型的残差流 (第 步,第 层)上训练了线性分类器,用于预测当前智能体正在前往的真实子目标 。
结果显示:
-
深层线性可分性:随着层数加深,线性探测的准确率显著上升,在模型中后层达到峰值。 -
信念增强:随着时间步 的推移(即智能体在该子目标阶段内收集了更多观测信息),探测器对正确子目标的预测概率质量逐渐集中。
这表明,尽管模型仅被训练用于预测下一个动作 ,但为了做好这一预测,模型必须在内部维护一个关于“当前目标是什么”的信念状态(Belief State)。
2.3 线性干预与因果性
仅仅能探测到表示并不意味着该表示具有因果效力。研究者进一步引入了线性控制器(Linear Controller) 来干预残差流:
这里 是特定于某个子目标的低秩矩阵。实验发现,在模型中间层(Mid-depth)插入对应于“前往红色”的线性控制器,可以强制智能体改变当前行为并执行前往红色的动作序列,即使原本的轨迹并非如此。这证实了内部表示不仅存在,而且是线性可控的,并且具有时序抽象特性(一次干预可影响后续一系列动作)。
3. 无监督元控制器
虽然验证了抽象的存在,但之前的干预依赖于真实的子目标标签。为了在无监督设置下自动发现并利用这些抽象,作者设计了一个 元控制器(Metacontroller)。
3.1 架构设计
元控制器是一个附着在冻结的预训练基础模型(Base Model)上的辅助网络,其目标是学习生成序列化的线性控制器 。

元控制器包含以下核心组件:
-
内部序列嵌入器(Internal Sequence Embedder):
读取基础模型的残差流序列 ,生成一个包含未来信息的序列嵌入 。这是一个非因果(Non-causal)的过程,仅在训练阶段使用。 -
控制器编码器(Controller Encoder):
基于序列嵌入,通过变分推断生成潜在变量(Latent Variable)。这个 代表了在时刻 建议的抽象动作(Candidate abstract action)。
-
切换单元(Switching Unit):
这是实现时序抽象的关键。该单元输出一个标量 ,用于控制是否切换到新的抽象动作。-
当 时,保持上一步的潜在编码 (时间延展)。 -
当 时,接受新的编码 (动作切换)。
这一机制使得 能够在多个时间步内保持不变,从而形成长时间跨度的抽象。
-
-
控制器解码器(Controller Decoder):
这是一个 Hypernetwork,将潜在编码 映射为线性控制器参数 。然后将 作用于基础模型的残差流。
3.2 训练目标:变分下界
元控制器的训练采用无监督的变分自编码器(VAE)范式。基础模型参数 保持冻结,仅优化元控制器参数 。目标函数为最小化负对数似然(NLL)与 KL 散度正则化项的加权和:
其中:
-
第一项是重构损失:通过元控制器干预后,模型预测原始动作序列的能力。 -
第二项是正则化项:约束潜在变量分布接近标准正态分布。超参数 控制了信息瓶颈的强度。
3.3 稀疏切换的涌现
一个关键的实验发现是,尽管没有显式的稀疏性惩罚,切换门 自发地学习到了准二值(Quasi-binary)的稀疏切换行为。
[图 6 自监督元控制器发现时序抽象]
如图所示, 的峰值高度对齐于真实任务中子目标发生变化的时刻。这意味着元控制器成功地将连续的动作流分割成了有意义的动作片段(Options)。
3.4 为什么需要冻结基础模型?
作者通过率失真(Rate-Distortion)分析揭示了一个有趣的现象:
-
冻结基础模型:率失真曲线存在明显的“水平缺口”(Horizontal Gap),即在某个特定的 值附近,少量的编码率(Rate)增加能带来极大的重构性能提升。这对应于模型发现了与真实子目标对齐的离散结构。 -
联合训练(Co-training):如果让基础模型和元控制器一起训练,这一结构特征消失,模型倾向于退化解(例如在开头切换一次,后面不再切换)。
结论:预训练的自回归模型通过下一个词预测任务,已经建立了良好的潜在表示结构。冻结它能够迫使元控制器去利用这些结构,而不是重新学习一套随意的编码。
4. 内部强化学习
在提取出时序抽象后,下一步是如何利用它来解决新的、更难的任务。
4.1 传统 RL 在稀疏奖励下的失效
在层级化任务中,如果奖励仅在完成整个子目标序列后给出(稀疏奖励),标准的基于动作空间的 RL(如 PPO 或 GRPO)通常会失效。
原因在于:
-
探索空间巨大:在 token 级别进行随机探索,能够凑巧生成一长串正确动作序列的概率极低(例如 量级)。 -
信用分配(Credit Assignment)困难:即使偶然获得奖励,由于序列过长,很难将奖励信号有效地回传到具体的每一个动作决策上。
4.2 Internal RL 范式
Internal RL 的核心思想是将 基础模型 + 元控制器解码器 视为环境的一部分,策略网络 直接在 潜在空间 上进行决策。
具体流程如下:
-
环境封装:将原环境、冻结的基础模型、元控制器的解码器 封装为一个新环境。 -
观察空间:输入为基础模型的残差流激活 。 -
动作空间:输出为潜在编码 。注意 ,且远小于动作序列的长度。 -
时间抽象:策略网络并不需要在每一步都输出新的 。利用元控制器训练好的切换机制(通过阈值化 ),策略仅在需要切换子目标时输出新的 ,在中间过程则由积分器保持当前的抽象动作。
算法上,Internal RL 采用了改进版的 PPO/GRPO,去除了 Critic 网络(使用蒙特卡洛回报估计),以适应稀疏奖励设定。
4.3 为什么 Internal RL 更有效?
作者在附录 E.2 中给出了详细的梯度方差分析,对比了在原始动作空间做 RL(Raw Action RL)和在潜在空间做 RL(Internal RL)的差异。
假设 空间已经被成功识别为抽象动作空间。
-
Raw Action RL 的梯度方差:随时间步 线性增长,且受动作空间维度的噪声累积影响。
-
Internal RL 的梯度方差:主要取决于回报 的方差,而不随时间步 恶化(因为决策频率低,且 空间紧凑)。
这意味着 Internal RL 实际上将一个长程规划问题转化为了一个决策步数极少的短程问题(Bandit-like problem),极大地简化了信用分配。
5. 实验结果与分析
5.1 任务设置:组合泛化
为了测试泛化能力,训练阶段(预训练和元控制器训练)使用的任务序列较短(例如 A->B)。而测试阶段(RL 微调)的任务序列更长且组合方式未在训练中出现(例如 A->B->C->D->A)。
5.2 主实验结果

实验对比了以下几种方法:
-
Internal RL(本方法) -
Internal RL (Co-train) :使用联合训练得到的元控制器。 -
Internal RL (w/o temporal abstraction) :强制 ,即每一步都重新决策 。 -
Raw Action RL:直接在基础模型上微调参数。 -
CompILE:一种经典的从演示中学习层级结构的 HRL 基线。
结果令人印象深刻:
-
Raw Action RL 和 CompILE 完全失败:在 100 万个 episode 内成功率几乎为 0。 -
Internal RL 迅速收敛:在 Gridworld 和 Ant 环境中均能快速达到高成功率。 -
时序抽象的重要性:去除了时序积分()的消融实验虽然初期有一定成功率,但最终性能和收敛速度远不如完整版本,证明了“维持”抽象动作对于信用分配至关重要。
5.3 泛化性分析
作者进一步探究了学到的潜在编码 的性质。
-
新配置下的泛化:在 Ant 环境中,将在一种迷宫布局下学到的“前往蓝色”的 代码,强制注入到另一种布局的迷宫任务中。结果显示智能体能够立即修正轨迹前往蓝色目标。 -
OOD 序列泛化:在从未见过的子目标转换顺序(例如从未见过从红色直接去蓝色)中,手动注入对应的 代码,智能体依然能够执行正确的转换。
这证明了元控制器学到的不仅仅是记忆了训练数据,而是真正捕获了功能性的意图(Functional Intent)。
6. 深入讨论
6.1 与 JEPA 的联系
Yann LeCun 提出的 JEPA 架构强调在抽象表示空间进行预测和规划,而不是在像素或 token 层面。本文的 Metacontroller 与 JEPA 的 Configurator 模块高度相似。
-
JEPA 的 Configurator 负责调节 World Model 和 Policy 以服务于特定目标。 -
本文的 Metacontroller 读取历史并调节自回归模型的残差流以执行特定子目标。
区别在于,JEPA 试图完全避开生成式模型(Generative Model),而本文展示了生成式(自回归)模型本身就是极佳的抽象表示学习器。通过对生成式模型进行“内部控制”,我们实现了类似 JEPA 的层级规划。
6.2 与 LLM 推理的联系
当前 LLM 领域的一个热点是利用 Chain-of-Thought (CoT) 进行推理。CoT 本质上是在 token 空间显式地展开推理步骤。
-
本文的 Internal RL 提供了一种隐式推理的思路:推理过程可能发生在潜在空间(Latent Space),通过一连串的 变换来指导输出,而不需要显式地生成每一个推理 token。 -
最近 DeepSeek-R1 等工作展示了 RL 在推理任务上的强大潜力。本文的 Internal RL 暗示,如果能直接在 Transformer 的中间层进行 RL 引导的干预,可能会比仅在输出端进行 RL 更高效,尤其是在思维链极长的情况下。
6.3 机制可解释性:SAE vs Metacontroller
稀疏自编码器(Sparse Autoencoders, SAE)是当前解释 LLM 内部表示的主流工具。SAE 训练于瞬时的激活向量,旨在寻找静态的特征叠加。
相比之下,本文的 Metacontroller:
-
动态性:它是预测性和干预性的,不仅解码特征,还生成控制信号。 -
有状态:它包含 RNN 结构,维护内部状态,因此能处理跨越长时间步的特征。
这表明,对于理解和控制“过程性”或“算法性”的知识,基于动力系统的 Metacontroller 可能比静态的 SAE 更具优势。
6.4 贝叶斯解释与率失真
附录 E.1 的推导将整个框架置于坚实的概率论基础之上。
ELBO 的最大化实际上是在做两件事:
-
重构(Reconstruction):保证 高,即抽象动作能准确指导具体行为。 -
压缩(Compression):保证 低,即抽象动作的信息量尽可能小。
的稀疏性可以被视为这种压缩压力的自然结果——如果不切换 ,就没有新的信息量产生,从而降低了总的 Rate。这解释了为什么不需要显式设计复杂的切换惩罚,简单的 KL 正则化加上适当的 就能涌现出完美的子目标分割。
7. 局限性与未来展望
尽管结果令人振奋,该工作仍存在局限:
-
环境复杂度:目前仅在 Gridworld 和 Ant 这种人工构造的层级任务上验证。真实世界的语言任务或复杂机器人的层级结构可能更加模糊且难以线性分离。 -
模型规模:实验使用的是较小的 Transformer 和 SSM。在大规模 LLM(如 70B 参数)上训练 Metacontroller 的计算成本尚待评估。 -
假设依赖:方法依赖于预训练数据覆盖了基础技能的组合。如果预训练数据完全没有涉及某些原子技能,Internal RL 也无法凭空创造。
未来方向:
-
LLM 推理加速:利用 Internal RL 在潜在空间进行跳跃式推理,减少生成的 token 数。 -
多模态控制:将此方法应用于视觉-语言模型(VLM)的机器人控制,实现更长程的任务规划。 -
更强的元控制器:使用更复杂的架构(如 Transformer)替代当前的 RNN/SSM 作为元控制器,以捕捉更复杂的时序依赖。
8. 结论
这篇论文有力地反驳了“自回归模型只是随机鹦鹉”的观点。它证明了:
-
深度预测蕴含抽象:仅仅是为了预测下一个 token,神经网络必须且已经学会了构建关于任务目标的深层、长程的抽象表示。 -
抽象是可控的:我们不需要通过繁琐的 Prompt Engineering 或微调权重来引导模型,直接在残差流进行线性干预是更直接有效的方法。 -
Internal RL 是新范式:在潜在空间进行强化学习,通过利用预训练的“势能”,解决了传统 RL 在长程稀疏奖励任务上的根本性难题。
附录:关键数学推导细节
A.1 变分下界 (ELBO) 的推导
目标是最大化观测数据似然 。
引入潜在变量序列 和切换变量 。
根据 Jensen 不等式:
由于切换机制的设计,当 时, 是确定性的(等于 ),此时 KL 散度为 0。只有当 时,才计算 分布与先验 的 KL 散度。这导致了最终损失函数中 KL 项的稀疏性,从而鼓励了稀疏切换。
A.2 梯度方差对比
考虑单次切换场景()。
Raw Action RL:
由于 在每一步都采样,噪声项 的维度随时间步 累积,方差项包含 因子。
Internal RL:
这里 仅在序列开始时采样一次(假设 )。梯度仅与 的维度有关,与 无关。
因此,对于长程任务( 很大),Internal RL 的方差显著更小,信噪比更高,这就是其能够训练成功的数学本质。
更多细节请阅读原文。
往期文章:
