Meta AI 提出 RECAP:真正的稳健推理源于纠正错误,而非模仿正确

对于大型推理模型(Large Reasoning Models, LRMs)而言,安全对齐(Safety Alignment)是一个核心且极具挑战性的研究课题 ...

ExGRPO:超越在线策略,让大模型从“经验”中高效学习推理

GRPO 或其变体等在线策略算法,遵循着一个严格的“生成-更新-丢弃”循环:模型根据当前策略生成一批经验数据(即解题轨迹),使用这批数据进行一次或几次梯度更新 ...

苹果提出 RL4HS:用强化学习来进行幻觉范围检测

对于大型语言模型(LLMs)而言,生成与输入源或已知事实不符的内容,即“幻觉”(Hallucination),是阻碍其在关键应用中落地部署的核心障碍之一。早期 ...

NVIDIA 大规模实证研究揭示:推理数据前置到预训练阶段的必要性

研究界的主流范式是将模型的训练过程清晰地划分为两个阶段:首先是通过在海量通用文本上进行自监督学习的预训练(Pretraining)阶段,旨在构建一个通识性的、 ...

Meta AI 揭示 SFT 陷阱:盲目追求高分,可能会损害模型在 RL 阶段的潜力

对于大型语言模型(LLMs)的后训练(Post-Training)实践常常依赖于一个基础假设:在 SFT 阶段取得更高性能分数的模型,在后续的 RL 阶段也理 ...

腾讯混元提出 RLPT :在预训练数据上进行 RL,进一步 scaling LLM 推理边界

目前,业界主流的两种范式监督学习和 RL 在“scaling”这一维度上遇到了各自的瓶颈。 我们能否设计一种新的训练范式,它既能像强化学习一样促进模型探索和学 ...

DeepSearch:将 MCTS 嵌入到 RLVR,解决信用分配难题

尽管 RLVR 在提升模型推理能力方面取得了显著成效,但是也有一个普遍存在的瓶颈:训练停滞期(Training Plateaus)。在经历了数千个step之后 ...

GRPO 就是 DPO ? 2-GRPO 媲美 16-GRPO,训练时间缩短 70%

Group Relative Policy Optimization (GRPO) 作为一种面向大型语言模型(LLMs)训练后阶段的强化学习算法,在学术界和工 ...

腾讯混元提出TFPI:效率性能双重提升,解决 RLVR 中长上下文训练难题

带可验证奖励的强化学习(RLVR)能有效解决复杂任务,但在实际训练过程中面临着两大瓶颈: 高计算成本:为了让模型充分探索推理空间,RLVR训练过程中需要生 ...

Meta AI:将 LLMs 定义为改进算子,定义效率与效果的新边界

思维链(Chain-of-Thought, CoT)通过引导模型生成一长串推理步骤,显著提升了模型在这些任务上的准确率。这种方法的直觉在于,更长的推理轨迹(即 ...