Meta AI 揭示 SFT 陷阱:盲目追求高分,可能会损害模型在 RL 阶段的潜力
对于大型语言模型(LLMs)的后训练(Post-Training)实践常常依赖于一个基础假设:在 SFT 阶段取得更高性能分数的模型,在后续的 RL 阶段也理
...
腾讯混元提出 RLPT :在预训练数据上进行 RL,进一步 scaling LLM 推理边界
目前,业界主流的两种范式监督学习和 RL 在“scaling”这一维度上遇到了各自的瓶颈。
我们能否设计一种新的训练范式,它既能像强化学习一样促进模型探索和学
...
DeepSearch:将 MCTS 嵌入到 RLVR,解决信用分配难题
尽管 RLVR 在提升模型推理能力方面取得了显著成效,但是也有一个普遍存在的瓶颈:训练停滞期(Training Plateaus)。在经历了数千个step之后
...
GRPO 就是 DPO ? 2-GRPO 媲美 16-GRPO,训练时间缩短 70%
Group Relative Policy Optimization (GRPO) 作为一种面向大型语言模型(LLMs)训练后阶段的强化学习算法,在学术界和工
...
腾讯混元提出TFPI:效率性能双重提升,解决 RLVR 中长上下文训练难题
带可验证奖励的强化学习(RLVR)能有效解决复杂任务,但在实际训练过程中面临着两大瓶颈:
高计算成本:为了让模型充分探索推理空间,RLVR训练过程中需要生
...
Meta AI:将 LLMs 定义为改进算子,定义效率与效果的新边界
思维链(Chain-of-Thought, CoT)通过引导模型生成一长串推理步骤,显著提升了模型在这些任务上的准确率。这种方法的直觉在于,更长的推理轨迹(即
...
腾讯 AI LAB 提出 MoE-CL:用 MoE 和 GAN 来解决 LLM 的持续学习问题
祝大家国庆节快乐! 中秋节快乐!
在真实世界的工业场景中,大规模语言模型(LLMs)的部署和应用面临着一个持续的、根本性的挑战:环境是动态变化的。新的业
...
DeepSeek-V3.2-Exp 论文详细解读
没错,就在刚刚,DeepSeek 又在十一假期前搞事情了,推出了实验性模型 DeepSeek-V3.2-Exp 并将技术论文《DeepSeek-V3.2-Ex
...
Meta AI 提出基于 RL 的连续 CoT 训练新范式
标准的 CoT 过程是建立在离散的语言词元(discrete tokens)之上的。在推理的每一步,模型都必须从词汇表中采样一个确定的词元,这相当于在一个庞大
...
陈丹琦团队新作:通过RLMT(模型奖励思考的强化学习)将推理能力泛化到开放式任务
对于大型语言模型(Large Language Models, LLMs)的研究而言,提升其推理能力,特别是模拟人类“系统2思维”(System 2 thin
...