大模型91

腾讯 AI LAB 提出 MoE-CL:用 MoE 和 GAN 来解决 LLM 的持续学习问题

祝大家国庆节快乐! 中秋节快乐! 在真实世界的工业场景中,大规模语言模型(LLMs)的部署和应用面临着一个持续的、根本性的挑战:环境是动态变化的。新的业 ...

DeepSeek-V3.2-Exp 论文详细解读

没错,就在刚刚,DeepSeek 又在十一假期前搞事情了,推出了实验性模型 DeepSeek-V3.2-Exp 并将技术论文《DeepSeek-V3.2-Ex ...

Meta AI 提出基于 RL 的连续 CoT 训练新范式

标准的 CoT 过程是建立在离散的语言词元(discrete tokens)之上的。在推理的每一步,模型都必须从词汇表中采样一个确定的词元,这相当于在一个庞大 ...

陈丹琦团队新作:通过RLMT(模型奖励思考的强化学习)将推理能力泛化到开放式任务

对于大型语言模型(Large Language Models, LLMs)的研究而言,提升其推理能力,特别是模拟人类“系统2思维”(System 2 thin ...

腾讯提出单流策略优化(SPO):告别组同步瓶颈,回归RL本质

当前,流行的范式是所谓的 group-based 方法,其代表是组相对策略优化(Group Relative Policy Optimization, GRP ...

北大 & 字节 Seed 提出 DACE:难度感知下的确定性引导探索

我们能否在不引入昂贵的过程监督(process supervision)的前提下,为模型提供更细粒度的学习信号?是否存在一种源自模型内部的、能够反映其推理状态 ...

从“方差坍塌”到“探索失效”:深入剖析强化学习在大型语言模型中的核心挑战

前言:当LLM遇见强化学习,是火花还是陷阱? 近年来,大型语言模型(LLM)与强化学习(RL)的结合,特别是以人类反馈强化学习(RLHF)为代表的技术,已成为 ...

美团 LongCat-Flash-Thinking Technical Report 深度解读

此篇报告介绍了一种高效的 5600 亿参数开源混合专家(MoE)推理模型 LongCat-Flash-Thinking。该模型通过精心设计的训练流程,包括长链 ...

“移除”还是“回归”?深入探讨 GRPO 中 KL Loss

随着 DeepSeek 的 R1-Zero 等工作展示出大规模强化学习在提升语言模型复杂推理能力上的潜力,研究社区对于其背后所使用的强化学习算法——组相对策略优化(Group Relative Po ...

腾讯 AI Lab 推出 EVOL-RL:无监督进化,多数主导选择,新颖性促进变异

大模型(LLMs)如今这么强了,如何实现可持续的自我进化? 现有的无标签学习方法,如最小化置信度不确定性、或基于自洽性(self-consistency)的多 ...