腾讯 WeChat AI 提出 Continuous Autoregressive Language Models

大模型的效率受其自回归、逐 token 生成的方式所限制。

为此，来自腾讯微信 AI Lab 的论文《Continuous Autoregressive Language Models》提出了的连续自回归语言模型（Continuous Autoregressive Language Models, CALM）框架，旨在将语言建模从离散的“下一词元预测”（next-token prediction）范式，转变为连续的“下一向量预测”（next-vector prediction）。其核心思想是使用一个高保真度的自编码器（Autoencoder）将一个包含个词元的文本块（chunk）压缩成一个单一的连续向量。如此一来，语言模型便可在连续向量序列上进行自回归生成，从而将生成步骤的数量减少为原来的。

当然，这一范式的转变也带来了新的挑战。当模型在无限的连续空间中进行预测时，我们失去了有限词汇表带来的便利。传统的最大似然估计（Maximum Likelihood Estimation）变得不再适用，像困惑度（Perplexity）这样的标准评估指标也随之失效。为此，CALM 框架引入了一整套专门为连续域设计的、无需似然（likelihood-free）的建模工具，包括：

一个能产生鲁棒向量表示的自编码器。
一个无需似然的语言建模训练与评估框架。
一套可在无显式概率分布的情况下进行温度采样的算法。

论文标题：Continuous Autoregressive Language Models
论文链接：https://arxiv.org/pdf/2510.27688

1. CALM

CALM 的核心思想非常直观：将多个离散的 token 打包压缩成一个单一的、信息密集的连续向量，然后让语言模型在这个连续向量构成的序列上进行自回归预测。这从根本上减少了生成所需的总步数。

如上图所示，传统的语言模型（Conventional LM）处理一个长度为的 token 序列，需要进行次自回归生成步骤。而 CALM 框架首先通过一个自编码器 (Autoencoder) ，将每个 token 压缩 (compress) 成一个连续向量 (vector)。这样，原本长度为的 token 序列就被转换成了一个长度为的向量序列。随后，一个连续语言模型 (Continuous LM) 在这个新的、更短的向量序列上进行自回归预测。在每一步，模型预测出代表下一个 token 块的向量，而非单个 token 。

这个框架的优势是显而易见的：通过将序列长度缩短倍，CALM 从根本上降低了自回归生成的步骤数，从而提升了计算效率。

然而，这个范式的转变也带来了三个重大的技术挑战，CALM 论文为这三个挑战构建了一套完整的、自洽的解决方案：

训练挑战：当预测目标从离散 token 变为连续向量时，模型的输出空间变成了无限的、不可数的。传统的、基于 softmax 和交叉熵的训练方法（即最大似然估计）不再适用。我们如何在一个没有显式似然函数（likelihood-free）的环境下训练模型？
评估挑战：传统的语言模型评估指标，如困惑度（Perplexity），是直接从模型的似然计算得出的。在无似然的 CALM 框架下，这些指标也失效了。我们如何公平、可靠地评估一个无似然语言模型的能力？
采样挑战：温度采样（temperature sampling）是控制 LLM 生成多样性与确定性的关键技术。它通过调整 softmax 前的 logits 来实现。对于一个只能输出样本而无法提供概率分布的黑箱模型，我们如何实现可控的温度采样？

接下来的几个章节，我们将深入探讨 CALM 是如何逐一解决这些挑战的。

2. 自编码器

CALM 框架的基础是一个高性能的自编码器（Autoencoder, AE）。这个 AE 的任务是学习一个在“ 个离散 token 块”和“一个维连续向量”之间的双向映射。这个映射必须满足两个苛刻的条件：高保真性（high-fidelity）和鲁棒性（robustness）。

2.1 高保真重建

自编码器的首要任务是确保压缩和解压过程的信息损失尽可能小。给定一个 token 块，编码器将其映射为一个潜向量，而解码器则需要能够从中近乎完美地重建出原始的 token 块。

为实现这一目标，CALM 的自编码器采用了标准的交叉熵损失进行训练，目标是最小化重建误差：

论文指出，通过一个轻量级的架构（例如，隐藏维度为 512），当时，仅用一个 10 维的潜向量，就能实现超过 99.9% 的 token 级别重建准确率。这证明了学习一个高保真的离散-连续映射在技术上是完全可行的。

2.2 鲁棒向量表示

然而，仅仅实现高保真重建是远远不够的。一个只为重建优化的自编码器，会学习到一个极其“脆弱”（brittle）的潜空间。它会为了最高效地打包信息，创造出一个高度不规则、不平滑的流形（manifold）。

这会带来一个致命问题：下游的连续语言模型在预测潜向量时，不可避免地会产生微小的误差。在一个脆弱的潜空间里，即使是对的一个微小扰动，也可能导致解码器输出一个与目标截然不同的、语义完全不相关的 token 序列。这使得基于这种潜空间的语言模型训练变得几乎不可能。

因此，自编码器必须满足第二个关键目标：其产生的向量表示必须是鲁棒的，即潜空间需要是平滑且结构化的，使得相似的向量能够解码成相似的 token 块。

2.3 构建鲁棒表示

为了构建这样一个鲁棒的潜空间，CALM 采用了一套组合策略，将一个标准的自编码器升级为了一个变分自编码器（Variational Autoencoder, VAE）。

2.3.1 变分正则化

核心思路是从确定性编码转向概率性编码。编码器不再直接输出一个潜向量，而是输出一个对角高斯分布的参数。潜向量从这个分布中采样得到：。

相应地，在损失函数中引入一项 KL 散度（KL divergence）损失，用于惩罚编码后的分布与标准正态先验分布之间的偏差。总损失函数变为：

其中，KL 散度损失的定义为：

这项技术鼓励编码器产生一个更加规整、平滑的潜空间。它限制了编码器在中使用任意大或任意精度的值，从而天然地提升了表示的鲁棒性。

2.3.2 防止后验坍塌

训练 VAE 时一个常见的问题是“后验坍塌”：某些潜空间的维度完全坍塌到先验分布，其对应的 KL 散度变为 0。这些维度对于重建变得毫无用处，相当于变成了纯粹的噪声，反而会干扰下游语言模型的训练。

为了解决这个问题，CALM 采用了 KL 裁剪（KL clipping）策略。它为每个维度的 KL 损失设置一个下限：

通过设置一个非零的下限（如），该策略强制每个维度都积极参与重建任务，防止其坍塌，从而保证了潜空间的表示是“稠密”且信息丰富的。

2.3.3 使用 Dropout 增强鲁棒性

在变分正则化的基础上，CALM 还使用了两种互补的 Dropout 技术来进一步增强鲁棒性。

潜向量 Dropout：在将潜向量送入解码器之前，对其施加一个 Dropout（如）。这迫使自编码器学习一种冗余的表示方式，使得即使的一部分信息丢失（模拟下游模型的预测误差），解码器依然能够准确重建。
输入 token Dropout：随机掩码（mask）一部分输入 token （如）。这迫使编码器必须根据上下文来推断被掩码的 token ，从而将其上下文语义信息编码到潜向量中，而不仅仅是进行简单的 token 索引压缩。

通过这套组合，CALM 构建了一个兼具高保真性（即使在显著的噪声扰动下，重建准确率仍超 99.9%）和高鲁棒性的自编码器。它所定义的平滑、结构化的潜空间，为下游连续语言模型的稳定学习和有效生成奠定了坚实的基础。

3. 无似然语言建模

有了鲁棒的 token -向量映射后，语言建模的核心任务就从预测离散的 token 序列，转变为预测连续的向量序列，其中。自回归的目标也相应地演变为：

如前所述，由于，其条件概率密度变得不可计算（intractable），这使得基于最大似然的训练方法失效。CALM 为此引入了一套无似然的建模框架。

3.1 生成头

CALM 的整体架构由一个 Transformer 主干网络和一个轻量级的生成头（generative head）组成。Transformer 负责处理历史向量序列并输出一个条件隐藏状态。生成头的任务则是根据来建模并采样出下一个向量。

理论上，任何连续数据生成模型都可以作为生成头，例如扩散模型（Diffusion Models）或流匹配模型（Flow Matching）。然而，这些模型通常依赖迭代式的采样过程，需要数十甚至上百次网络前向传播才能生成一个向量。这会完全抵消掉 CALM 通过减少自回归步数所带来的效率增益，与框架的初衷背道而驰。

因此，CALM 架构要求生成头必须能够进行高质量的单步生成。

3.2 基于严格合规评分规则的能量损失

为了实现高效的单步生成，并解决无似然的训练难题，CALM 借鉴了严格合规评分规则（Strictly Proper Scoring Rules, SPSR）的理论。

SPSR 为评估预测分布的质量提供了一个普适的框架。一个评分规则会在观测到真实结果时，为预测分布打一个分数。一个评分规则被称为“严格合规”，如果其期望得分当且仅当（即预测分布与真实分布完全一致）时取得最大值。

这个性质保证了，以最大化一个严格合规评分规则的期望为目标进行训练，可以驱动模型学习到真实的数据分布。最大似然估计本质上是 SPSR 的一个特例，它对应于对数分数（Logarithmic Score）。而在似然不可 tractable 的连续域，SPSR 理论为我们提供了丰富的替代方案。

CALM 选择了其中一种被证明非常有效的、完全无似然的评分规则——能量分数（Energy Score）。对于一个预测分布和一个真实观测，其能量分数的定义为：

其中，通常取。这个分数由两项组成：

多样性项 ：鼓励模型生成的样本之间距离尽可能大，惩罚生成坍塌或过于自信的预测。
保真度项 ：鼓励模型生成的样本与真实观测尽可能接近。

3.3 最终的能量损失函数

能量分数的定义中包含期望，无法直接计算。因此，CALM 通过蒙特卡洛采样来构造一个无偏的估计量，作为实际的训练损失函数，称为能量损失（Energy Loss）。

具体来说，在每个训练步骤：

从生成头采样个候选向量。
利用自编码器提供的后验分布，采样个目标向量。（注意：这里的“真实”目标不是一个固定的点，而是一个分布，从中采样多个目标可以稳定训练过程）。

最终的能量损失被定义为：

这个损失函数完全基于样本间的距离计算，不涉及任何概率密度的评估，从而完美地解决了无似然的训练难题。在实践中，使用较小的（如 8）和较大的（如 100）可以在计算成本和训练稳定性之间取得良好平衡。

3.4 模型架构与推理流程

CALM 的完整模型架构和推理流程如上图所示。其自回归循环如下：

输入处理 ：在第步，将上一步生成的个离散 token 进行嵌入，并通过一个轻量级的输入压缩 MLP（a two-layer MLP）将其映射为单一的输入表示。
连续预测 ：Transformer 主干网络接收输入表示，并输出隐藏状态。基于能量的生成头接收和一个随机噪声向量，通过一系列残差 MLP 块进行 refine，最终单步预测出下一个连续向量。
离散反馈循环 ：将预测出的向量立刻送入预训练且已冻结的自编码器解码器，重建出下一个个离散 token 。这些 token 将作为下一步的输入，循环往复。

这种将自回归过程“锚定”在离散 token 空间的设计，为模型提供了更结构化和稳定的输入信号，实验证明其性能远优于直接使用连续向量作为 Transformer 输入的方案。

4. BrierLM

解决了训练问题后，下一个挑战是如何评估。没有了似然，Perplexity 也就不复存在。CALM 为此提出了一个全新的、普适的、无似然的语言模型评估指标——BrierLM。

4.1 评估指标的原则

一个好的评估指标，其核心原则是能够公正地衡量模型预测分布与真实数据分布之间的一致性。该指标应当在且仅在时达到最优。Perplexity（基于负对数似然）满足这个原则。

相对地，一个简单的指标，如观测样本的原始似然，则是有缺陷的。因为它会偏好那些对最常见样本给出极高概率的过自信模型，而忽略了对不确定性的正确表达。

4.2 模型评估

为此，CALM 转向了另一个经典的严格合规评分规则——Brier 分数 (Brier Score) 。对于一个预测分布和真实结果，Brier 分数的定义是：

与只关注准确率的不同，Brier 分数额外包含了一项，用于量化预测的不确定性。它在奖励准确预测的同时，也要求模型对自身的不确定性有良好的校准。

Brier 分数的直接计算仍然需要知道完整的概率分布。然而，其美妙之处在于，我们可以构造一个完全无似然的、无偏的蒙特卡洛估计量。

不确定性项可以被理解为从中独立采样两个样本时，它们恰好相等的碰撞概率（collision probability）。因此，其无偏估计量就是指示函数。
准确率项可以通过从中采样一个样本并判断其是否等于来估计，即。

结合起来，我们仅需从模型中采样两次，就可以得到 Brier 分数的一个无偏估计：

基于这个估计量，CALM 定义了 Brier-n，即在 n-gram 级别上计算 Brier 分数。最终的复合指标 BrierLM 被定义为 Brier-1 到 Brier-4 的几何平均数，并缩放到 0-100 的范围，使其更具可解释性。

4.3 BrierLM 的有效性验证

BrierLM 不仅适用于 CALM，它是一个通用的评估协议，也适用于任何传统的自回归模型（只需从其 softmax 分布中采样即可）。为了验证其有效性，研究者在训练标准 Transformer 模型的过程中，同时记录了交叉熵损失和 BrierLM 分数。

结果显示，BrierLM 与交叉熵损失呈现出高度的负相关性（皮尔逊相关系数为 -0.966，斯皮尔曼等级相关系数为 -0.991）。这种近乎线性的强关联证实了 BrierLM 是一个衡量语言建模能力的可靠指标，可以作为 Perplexity 在无似然场景下的可信替代品。

5. 无似然温度采样

最后一个挑战是可控生成。传统的温度采样依赖于对 logits 的缩放，这在 CALM 这样的“黑箱采样器”中是行不通的。CALM 为此设计了一套基于拒绝采样的、理论上精确的无似然温度采样算法。

5.1 重复采样与概率指数化

算法的直觉来源于重复采样与概率指数化之间的关系。假设我们希望从一个目标分布中采样，而我们只有一个基础采样器对应于。

考虑一个简单的特例，当温度（其中为整数）时，目标分布为。从基础采样器中独立采样次，得到。这个样本全部相同的概率恰好是。如果我们设计一个拒绝采样方案：采样次，当且仅当这个样本完全相同时，我们接受这个样本，否则全部拒绝并重来。那么，最终被接受的样本的分布就正比于。

5.2 两阶段拒绝采样算法

为了将此思想推广到任意温度，算法将指数分解为一个整数部分和一个小数部分。采样过程也相应地分为两个阶段：

阶段一（处理整数部分）：执行上述的重复采样策略。从基础采样器中采样次。如果所有样本都相同，则将该样本作为候选者进入阶段二；否则，拒绝并从头开始。
阶段二（处理小数部分）：这一阶段更为精细，它利用了伯努利工厂（Bernoulli Factory）的理论来构造一个概率为的接受事件。这是一个迭代过程，最终以一定的概率接受或拒绝候选者。

只有当一个样本同时通过了阶段一和阶段二，它才被最终输出。论文中的算法 1 详细描述了这个过程，并从理论上证明了其正确性。

5.3 批次近似算法

这个精确算法虽然理论优美，但在低温（即很大）时，要求个样本完全相同的概率极低，导致拒绝率非常高，计算上不切实际。

为此，论文提出了一个更实用的批次近似（Batch Approximation）算法。其核心思想是，从进行一次高风险的尝试（需要个样本完全一致），转变为在一大批次（batch a large number of samples, ）的样本中进行组合搜索。

具体来说，先从基础采样器中一次性采样个样本。然后，统计每个独特样本出现的次数。对于出现了次的样本，它可以构成个成功的元组候选。算法根据这个权重从所有有效的候选者中进行采样。如果没有任何样本出现次数达到，算法会逐步降低要求（），直到找到有效的候选集，确保总能产生一个输出。

这个近似算法在趋于无穷时是渐近无偏的，并且在实践中，批大小成为了一个在效率和准确性之间进行权衡的实用杠杆。

6. 实验

论文通过一系列详尽的实验，验证了 CALM 框架的有效性。

主要结果：

实验结果表 1 表明，CALM 范式建立了一个新的、更高效的性能-计算边界。例如，一个 371M 参数的 CALM-M (K=4) 模型，在 BrierLM 分数上与 281M 参数的 Transformer-S 基线相当，但所需的训练 FLOPs 减少了 44%，推理 FLOPs 减少了 34%。这证实了通过提升语义带宽来换取计算效率的核心假设。
语义带宽 K 的影响：
图 4 展示了作为一个新的模型设计轴线的作用。随着的增加，计算成本显著下降。当从 1 增加到 4 时，CALM 模型的性能-计算曲线超越了传统的 Transformer 基线。这表明，在模型容量足够支撑更复杂的预测任务时，提升是一个优化性价比的有效手段。
组件消融研究：
- 自编码器：消融实验证明，变分正则化、KL 裁剪和两种 Dropout 对于下游语言模型的最终性能都至关重要。一个仅为重建优化的脆弱自编码器，会导致下游性能的严重下降。
- 生成头：与扩散模型和流匹配模型相比，CALM 采用的单步能量基生成头在性能和推理效率之间取得了最佳的平衡，是实现框架整体效率目标的关键。
- 模型输入：实验证实，采用“离散反馈循环”（将预测向量解码为 token 再作为输入）的性能，显著优于直接将连续向量作为 Transformer 输入的方案，验证了其设计的合理性。

7. 点评

其实论文的思路并不算新，但它成功地将多个领域（变分自编码器、能量基模型、层次化自回归）中已有的概念，整合为一个可以在数十亿参数规模上稳定训练并取得优异结果的端到端系统。

许多早期的连续潜空间模型因训练不稳定、难以扩展而停留在理论或小规模验证阶段。CALM 通过一系列精心设计的组件（如 KL 裁剪、多重 Dropout 策略、能量损失的稳定估计），在大规模数据集上证明了这条技术路线的可行性。其在性能-计算前沿上超越传统 Transformer 基线的结果，是对该方法有效性的有力证明。

CALM 的价值不仅在于模型本身，更在于它为解决“连续向量预测”这一核心难题所提供的一整套方法论：

鲁棒自编码器设计：论文详细阐述了如何通过变分正则化、KL 裁剪等技术，构建一个兼具高重构保真度和鲁棒性的潜空间，这是一个非常实用的经验总结。
BrierLM 评估指标：这是一个坚实的贡献。对于似然难以计算的生成模型，如何公平评估其语言建模能力一直是个难题。BrierLM 基于严格正常的评分规则，理论上可靠，且实验证明了它与传统交叉熵损失的高度相关性，为这类模型提供了一个普适、无偏的评估工具。
无需似然的温度采样：论文为只有黑盒采样器的情况提供了有原则的解决方案，解决了隐式模型的一个关键可用性问题，使其在实际应用中更具可控性。

一些缺陷：

核心挑战的转移而非根本解决。CALM 并没有凭空消除语言建模的复杂性，而是将其从一个问题转化为了另一个问题。传统 LLM 将建模压力集中在 Transformer 主干网络上；而 CALM 将压力分解了：一部分由自编码器承担（学习一个“好”的潜空间），另一部分由下游的连续生成模型承担。整个系统的成败严重依赖于自编码器所定义的潜空间质量。

流形脆弱性 (Manifold Brittleness) ：尽管论文采用了多种技术增强鲁棒性，但潜空间的平滑性和语义连续性依然是难以保证的。下游生成模型必须非常精确地学习并停留在数据流形上，这本身就是一个巨大的挑战。一个微小的偏差就可能导致解码出无意义的内容。
超参数敏感性 ：从论文的消融研究可以看出，模型的最终性能对自编码器的设计（如 KL 散度权重、潜层维度）高度敏感。这表明获得一个理想的潜空间需要大量的调试和经验，增加了整个框架的脆弱性和应用门槛。

论文宣称的效率提升主要来自自回归步骤数减少为。但这并非故事的全部，实际的效率账需要更仔细地计算：

训练开销：CALM 的训练流程更复杂，需要独立训练自编码器。其能量损失的估计需要在每个训练步骤中从生成头采样次，这带来了额外的计算开销。
推理开销：虽然自回归步骤减少了，但其温度采样算法，尤其是用于提升实用性的近似算法，需要引入一个大的批次大小，这意味着为了生成一个输出块，需要并行进行次模型前向传播，总计算量可能相当可观。
系统复杂性：整个系统包含多个需要独立训练和调试的模块，增加了研究和部署的复杂度。因此，其效率优势是在诸多因素之间权衡的结果，而非一个简单的倍提升。

往期文章：

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30