f-散度直击 GRPO 的传统 Reverse KL:用 Mass-Covering 解决多样性坍塌
我们知道可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)会提高模型的Pass@1
...
Meta AI 新研究:基于结果的探索,共同提升pass@1和pass@k,缓解大模型推理中的多样性坍塌
对于具有客观、可验证答案的推理任务(verifiable reasoning tasks),例如完成数学证明、生成一段功能代码或解决科学问题,其核心目标是找到
...
字节 Seed 提出 REER:由 Query 和 Answer 逆向得到 CoT,专注于开放式任务
对于开放式、创造性生成任务(open-ended, creative generation),例如撰写一篇小说、构思一首诗歌或草拟一份营销文案,并不存在唯一的
...
HuggingFace 月度 Top 1 论文:Gensyn AI 提出 SAPO——通过集体经验共享实现高效的语言模型后训练
将强化学习有效应用于 LLM 并非易事。为了加速推理和训练,现有的主流方法通常依赖于大规模并行化,但这引入了严峻的技术挑战和高昂的经济成本。例如,基于同步策略
...
字节 Seed 推出 EMPG:面向长程 LLM Agents 的熵调控策略梯度
如何有效地训练 Agent 仍然是一个开放且充满挑战的研究领域,特别是在许多现实场景中,例如网页浏览、软件工程或复杂的知识检索,环境的奖励信号是稀疏的——代理
...
腾讯 AI Lab 推出 Parallel-R1:引入并行思考进一步释放LLM潜力
思维链(Chain-of-Thought, CoT)是主要依赖于一种顺序性的、单线程的推理模式。这种模式模拟了人类解决问题时一步接一步的思考过程,虽然在一定程
...
百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO
在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimiz
...
Meta AI 新作 Distilled Pretraining:预训练阶段知识蒸馏会损害ICL能力
我们知道知识蒸馏(Knowledge Distillation)主要被视为一种模型压缩或在有监督微调阶段提升性能的手段。然而在过去的一年中,知识蒸馏在大模型预
...
深入解读 RL's Razor:为何在线强化学习能有效缓解灾难性遗忘?
当我们使用新数据对大模型进行微调(Fine-tuning)时,模型在获得新能力的同时,往往会严重损害甚至完全忘记之前已经掌握的知识和技能。这就是灾难性遗忘(C
...
Meta Superintelligence Labs 首篇论文:重新定义 RAG
在RAG应用中,LLM的上下文主要由检索到的段落拼接而成,其中只有一小部分与用户的查询直接相关。由于在重排阶段的多样性或去重操作,这些段落间的语义相似性不高,
...