Meta AI&UCSD提出DeepConf：将GPT-OSS-120B AIME 2025准确率提升至99.9%

测试时（test-time）扩展大模型推理能力的核心好处是无需重新训练或微调模型，即可在推理阶段动态提升其在特定任务或复杂场景下的性能与泛化能力。但是在面对复杂推理任务时有些挑战，比如Self-Consistency、Majority Voting这类方法往往伴随着巨大的计算开销和边际效益递减的问题。

近期Meta AI和UCSD的研究人员Yichao Fu, Xuewei Wang, Yuandong Tian, 以及Jiawei Zhao共同发表了一篇题为《Deep Think with Confidence》的论文，提出了一种名为DeepConf的简单而强大的方法，来解决这一问题。

DeepConf利用模型内部生成的“置信度”信号，在推理过程中或生成后动态地过滤掉低质量的推理路径（reasoning traces）。这种方法的显著优势在于它无需额外的模型训练或复杂的超参数调整，并且能够无缝地集成到现有的模型服务框架中。实验结果显示，DeepConf在包括AIME 2025在内的多个高难度推理基准测试中表现优异，不仅将GPT-OSS-120B模型的准确率在AIME 2025上提升至接近完美的99.9%，同时相较于传统的并行思考（parallel thinking）方法，最多能减少高达84.7%的生成Token数量，实现了性能与效率的双重提升。

背景

在深入了解 DeepConf 之前，我们有必要先回顾一下它所要解决的问题的背景，即“平行思维”（或自洽性）方法的优势与局限。

什么是平行思维？

“平行思维”是一种增强 LLM 推理能力的测试时方法。其灵感来源于一个简单的直觉：对于一个复杂的问题，如果能从多个不同的角度出发进行思考，并最终得到相同的结论，那么这个结论的可信度就非常高。

在 LLM 中，这一过程被实现为：

多样化采样：对于同一个问题（prompt），不采用确定性的解码（greedy decoding），而是使用带有温度（temperature）的采样方法，生成条不同的推理路径。这些路径可能在中间步骤上有所不同，但都旨在解决同一个问题。
提取答案：从每条推理路径的末尾提取最终的答案。
多数投票：统计所有个答案的出现频率，选择出现次数最多的答案作为最终输出。

这种方法之所以有效，是因为它探索了模型推理过程的多种可能性。即使模型在某一条路径上犯了小错误，只要大部分路径能够殊途同归，最终的答案大概率是正确的。这极大地增强了结果的稳定性和准确性。

平行思维的局限

尽管效果显著，平行思维的实践应用却面临两大核心挑战：

1. 高昂的计算开销 (Computational Overhead)

这是最直观的问题。生成条完整的推理路径意味着计算成本也线性增长为原来的倍。论文中给出了一个具体的例子：为了使用 Qwen3-8B 模型在 AIME 2025 基准上将 pass@1 准确率从 68% 提升到 82%，需要为每个问题额外生成 511 条推理路径，这总共消耗了超过 1 亿个 tokens。在实际的在线服务中，如此高的延迟和成本是难以接受的。

2. 质量盲点与收益递减 (Quality Blindness & Diminishing Returns)

标准的多数投票机制存在一个根本性的缺陷：它是一个完全“民主”的系统，每条路径的“选票”权重都为 1，但它并非一个“精英”系统。这意味着它无法区分推理路径的质量。

想象一下，对于一个复杂的数学问题，模型可能生成了 100 条推理路径。其中可能有 5 条路径逻辑严谨、步骤清晰，最终得到了正确答案 A。另外可能有 10 条路径在某个关键步骤上出现了相似的逻辑混淆，导致它们都得出了同一个错误答案 B。其余的 85 条路径则因为各种各样的错误，得出了五花八门的答案。在这种情况下，尽管答案 A 的推理质量最高，但答案 B 却会因为数量优势（10 > 5）而在投票中胜出。

这种“劣币驱逐良币”的现象导致了性能的收益递减。当路径数量增加到一定程度后，新生成的路径中低质量的比例可能更高，它们的存在不仅无法提供有用的信息，反而可能成为噪声，干扰最终的投票结果，导致准确率饱和甚至下降。

因此，一个理想的解决方案不仅要考虑“量”，更要关注“质”。如何有效地识别并利用那些高质量的推理路径，同时过滤或抑制低质量路径的影响，成为了优化平行思维方法的关键。这正是 DeepConf 所要解决的核心问题。

DeepConf 的核心思想：以置信度作为推理质量的指针

DeepConf 的出发点非常直观：模型在进行推理时，其内部状态中必然蕴含着对当前生成内容“自信”程度的信息。如果模型在某个推理步骤上非常“确定”，那么它给出的下一个词元的概率分布会非常尖锐（低熵）；反之，如果模型感到“困惑”或“不确定”，其概率分布就会比较平缓（高熵）。

DeepConf 认为，这种逐词元（token-level）的置信度信号，可以被聚合起来，形成对整条推理路径质量的有效评估。一条高质量的推理路径，通常表现为在绝大多数步骤上都维持着较高的置信度。

基于这个核心思想，论文定义了一系列由细到粗的置信度度量指标。

1. 词元置信度 (Token Confidence)

这是最基础的度量单位。对于位置的词元，模型会预测一个词汇表上的概率分布。词元置信度 被定义为 top-k 个候选词元的负对数概率的平均值：

其中，是第个最可能的词元的概率。这个值越高，代表模型对这 k 个候选词元的总体预测越自信，分布越尖锐。

2. 平均轨迹置信度 (Average Trace Confidence)

最简单的聚合方式，就是将一条路径上所有个词元的置信度进行平均，得到整条轨迹的平均置信度：

这个指标在之前的一些工作中也被称为“自确定性”（self-certainty）。它能从宏观上反映一条轨迹的整体质量。然而，它有一个显著的缺点：全局平均会掩盖局部的关键失败。一条推理路径可能在 99% 的步骤上都非常自信，但在最关键的一步上出现了严重的不确定性，导致最终结果错误。平均置信度很可能会因为那 99% 的高分而被拉高，从而无法识别出这个致命的缺陷。

3. 关键创新：局部置信度度量

为了解决平均置信度的局限性，DeepConf 引入了更能捕捉局部推理动态的度量方式，这也是该方法的核心创新所在。

a. 组置信度 (Group Confidence)

为了得到一个比词元置信度更平滑、比平均轨迹置信度更局部的信号，论文提出了组置信度。它实际上是一个在词元置信度序列上的滑动平均。对于每个词元，它的组置信度是由它和它之前的个词元（构成一个大小为的窗口或“组” ）的词元置信度的平均值：

这个指标能够有效地平滑掉单个词元的噪声，同时反映一小段推理过程中的置信度变化。

b. 聚合局部信号以评估整条轨迹

有了组置信度这个工具，就可以设计出更精细的轨迹质量评估指标。论文观察到，推理失败往往与轨迹中出现极端低置信度的片段强相关。例如，当模型开始生成 "wait", "however", "let me think again" 等词语时，通常是其推理流程被打断或感到困惑的信号，此时的组置信度会急剧下降。

基于此，论文提出了三种新的、基于局部信号的轨迹置信度度量：

Bottom 10% 组置信度 ()：一条轨迹的置信度，由其最低的 10% 的组置信度的平均值来决定。

其中是该轨迹中所有组置信度得分最低的 10% 的组的集合。这个指标专注于推理链条中的“最薄弱环节”。一条推理路径的质量，很大程度上取决于其最不确定的那部分。
最低组置信度 ()：一个更极端的版本，直接使用整条轨迹中最低的那个组置信度作为该轨迹的最终得分。

这个指标对推理过程中的任何一次“信心崩溃”都极其敏感。正因为如此，它成为了在线模式下判断是否要提前终止生成的完美信号。
尾部置信度 ()：只关注推理路径最后一部分（例如，最后 2048 个词元）的平均置信度。

这个指标的动机在于，推理的最后阶段（例如，数学题的最终计算和得出结论）对结果的正确性至关重要。一条开头很好但结尾很草率的推理，很可能是错误的。

图 2 直观地展示了这些新指标的优越性。相比于平均置信度，Bottom 10% 和尾部置信度能够更清晰地将正确推理轨迹（Correct）的分布与错误推理轨迹（Incorrect）的分布分离开来，证明了它们是更有效的质量评估器。

DeepConf 的两种工作模式

装备了上述强大的置信度度量工具后，DeepConf 设计了两种灵活的工作模式，以适应不同的应用场景。

1. 离线模式 (Offline Mode): 精炼已生成的推理轨迹

离线模式的应用场景是：我们已经通过并行采样，生成了一个包含条完整推理路径的集合。现在的任务是如何从这个集合中最高效地聚合出最准确的答案。DeepConf 提出了两种策略：

a. 置信度加权多数投票 (Confidence-Weighted Majority Voting)

这是一种对标准多数投票的直接改进。标准的投票计数为：

其中是指示函数。

而在加权投票中，每条路径的“选票”不再是 1，而是其自身的轨迹置信度分数（可以使用 , , 等任意一种度量）。新的计票规则为：

这样，由高置信度路径支持的答案会获得更高的权重，从而减少了低质量路径对最终结果的干扰。这就像一场“精英选举”，更有见地的选民拥有更大的话语权。

b. 置信度过滤 (Confidence Filtering)

这是一种更激进的策略。在进行投票之前，首先根据置信度分数对所有条路径进行排序，然后只保留排名前 的路径，丢弃剩下的。接着，在保留下来的这个高质量子集上，再进行置信度加权多数投票。

论文中主要实验了两种过滤比例：

激进过滤 () ：只保留最顶尖的 10% 路径。这种策略旨在最大化地利用最高质量的信息，通常能带来最大的性能提升。但风险在于，如果模型在某个问题上“自信地犯错”，这种策略可能会因为样本太少而导致错误。
保守过滤 () ：保留 90% 的路径，只过滤掉最差的 10%。这是一种更安全的选择，在保持路径多样性的同时，剔除了最明显的噪声，能够稳定地获得性能改善。

下图清晰地展示了离线模式的工作流程。

2. 在线模式 (Online Mode): 实时控制与提前终止

在线模式是 DeepConf 最具吸引力的部分，因为它直接解决了平行思维的计算效率问题。其目标是在生成过程中实时识别并放弃那些“没有希望”的推理路径，从而避免在它们身上浪费计算资源。

该模式主要基于最低组置信度 () 指标，并包含两个阶段：

阶段一：离线预热 (Offline Warmup)

对于每一个新的问题，在线模式首先需要一个快速的“预热”阶段来设定一个动态的终止阈值。

生成初始轨迹：首先，生成一个小数目（例如）的完整推理路径。
计算置信度：对这 16 条路径，计算出它们的最低组置信度。
设定终止阈值 ：根据预设的保留比例，在 16 个置信度分数中计算一个百分位数，作为该问题后续生成的终止阈值。
这个阈值的设定与过滤比例相对应：
- DeepConf-low (对应的激进过滤)：被设为第 90 百分位数。这意味着后续生成的路径必须全程保持非常高的置信度（高于预热集中 90% 的路径），否则就会被终止。这是一个“高标准”模式。
- DeepConf-high (对应的保守过滤)：被设为第 10 百分位数。这是一个“低标准”模式，只要路径的置信度不掉到预热集中最差的 10% 以下，就可以继续生成。

阶段二：自适应生成 (Adaptive Generation)

阈值设定好后，模型开始生成新的推理路径，并进行实时监控：

逐词元生成与监控：在生成一条新路径时，实时计算其滑动窗口的组置信度。
提前终止：一旦当前组置信度低于阈值 ，这条路径的生成将立即被停止。这条被“腰斩”的路径不会参与最终的投票。
完成与聚合：如果一条路径顺利生成完毕（未触发终止条件），它将被加入到最终的候选池中，用于投票。
自适应采样：为了进一步提升效率，DeepConf 还引入了共识停止机制。在每条路径生成完成并加入候选池后，系统会检查当前池中是否存在一个答案获得了压倒性的多数支持。具体来说，它会计算当前票数最高的答案的权重占总权重的比例。

如果超过一个预设的共识阈值（例如 0.95），则说明模型对答案已经达成高度共识，无需再生成更多的路径。整个过程将提前结束，并返回当前多数答案。这对于“简单”问题尤其有效。

在线模式的整个流程如下图所示。

通过“离线预热”设定动态阈值和“自适应生成”中的提前终止与共识停止，在线模式实现了一种非常高效的计算资源分配策略，将算力集中在那些最有希望的推理路径上。

实验与结果分析

为了验证 DeepConf 的有效性，论文在多个模型和高难度推理基准上进行了详尽的实验。

实验设置

模型：涵盖了三种主流的开源模型系列：DeepSeek-8B, Qwen3 (8B, 32B), GPT-OSS (20B, 120B)。
基准：选用了五个极具挑战性的推理数据集，包括 AIME 2024/2025, HMMT 2025, BRUMO25 等数学竞赛题，以及 GPQA 研究生水平的 STEM 推理题。
基线方法：主要与两种基线进行比较：
- Pass@1：单次生成（不使用平行思维）的准确率。
- Cons@K：使用 K 条路径的标准、无权重的多数投票。
评估指标：主要关注两个方面：最终的准确率 (%) 和生成的总词元数 (Tokens) 。

离线评估结果分析

离线实验旨在验证 DeepConf 的置信度度量和聚合策略在提升最终准确率上的效果。实验中，对于每个问题，从一个预先生成的包含 4096 条轨迹的池中，重复采样 512 条（）作为工作集进行评估。

从表 1 的结果中，我们可以观察到几个关键点：

DeepConf 显著优于标准投票：在绝大多数设置下，使用置信度加权和过滤的 DeepConf（例如 Bottom-10 Conf, Tail Conf）都比基线 Cons@512 取得了更高的准确率。
激进过滤 (10%) 效果最显著：保留 top 10% 轨迹的策略通常能带来最大的准确率提升。例如，在 AIME25 数据集上，DeepSeek-8B 的准确率从 82.3% 提升到了 87.4%；而 GPT-OSS-120B 更是从 97.0% 提升到了 99.9% ，几乎完美地解决了这个基准。这证明了高质量路径中蕴含着巨大的价值。
保守过滤 (90%) 是安全选项：虽然 10% 过滤效果最好，但也存在风险（如 GPT-OSS-120B 在 HMMT25 上性能略有下降）。相比之下，保留 90% 的轨迹是一种更稳健的策略，它几乎总能带来稳定的小幅提升或与最佳性能持平，有效避免了性能下降的风险。
局部置信度度量更有效：实验表明，基于局部信号的 Bottom-10% 和 Tail Confidence 通常比基于全局信号的 Average Trace Confidence 表现更好，验证了关注“薄弱环节”和“关键结尾”的重要性。

下图展示了在使用最低组置信度进行过滤时，准确率随投票预算（路径数量）变化的曲线。可以看到，Top 10% 过滤在大多数情况下都稳定地压制了标准多数投票。

在线评估结果分析

在线实验是检验 DeepConf 实际应用价值的关键，因为它同时考察了准确率和效率。

表 2 的结果非常令人振奋，它清晰地展示了 DeepConf 在效率与性能权衡上的巨大优势：

DeepConf-low：极致的效率提升
- DeepConf-low（激进模式）在大幅削减 token 消耗的同时，往往还能保持甚至提升准确率。
- 以 GPT-OSS-120B 在 AIME25 上的表现为例，与基线 Cons@512 相比，DeepConf-low 的准确率从 97.1% 提升到 97.9%，而 token 消耗减少了 84.7% ！这意味着用大约 15% 的计算成本，获得了更好的结果。
- 在 DeepSeek-8B 的 AIME24 上，token 消耗减少了 77.9%，准确率从 86.7% 大幅提升到 92.5%。
DeepConf-high：稳健的效率优化
- DeepConf-high（保守模式）提供了一个更稳妥的选择。它也能节省大量的 token（约 18%-59%），同时保证准确率几乎不受影响，或者只有微小的性能下降。
- 对于那些对准确率下降零容忍的应用场景，DeepConf-high 是一个理想的、即插即用的效率优化方案。

下图以 GPT-OSS-120B 为例，直观地比较了不同方法在各个任务上的 token 生成数量。可以看到，DeepConf-low的计算成本远低于其他方法。

为了更全面地展示这种权衡关系，论文还绘制了准确率-成本（Tokens）曲线。

从上图可以看出，DeepConf-low 和 DeepConf-high 的曲线始终位于标准多数投票的左上方。这意味着，在任何给定的准确率水平上，DeepConf 都需要更少的计算成本；或者说，在任何给定的计算预算下，DeepConf 都能达到更高的准确率。这表明 DeepConf 在帕累托最优前沿（Pareto frontier）上实现了对基线方法的完全支配。

点评

这是该论文最大的亮点。DeepConf是一种测试时（test-time）方法，意味着它完全不需要对模型进行任何重新训练或微调。它作为一个“外挂”或“推理策略”存在，可以直接应用于现有的、已经训练好的开源模型上。论文甚至在附录中给出了在vLLM（一个流行的LLM推理服务框架）中实现该方法所需的最少代码修改。

局限性：这是该方法最核心的、也是作者在论文中坦诚承认的局限性。DeepConf的基本假设是“高置信度 ≈ 高正确率”。然而，LLM有时会“一本正经地胡说八道”，即以非常高的置信度给出一个错误的推理过程和答案。在这种情况下，DeepConf不仅无法识别错误，反而可能放大错误。特别是激进的Top 10%过滤策略，如果模型恰好对一个错误答案的几条推理路径都表现出极高的置信度，那么这些错误路径将被筛选出来并主导最终的投票，导致错误的结果被“强化”。

往期文章：

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30