大模型72

百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO

在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimiz ...

Meta AI 新作 Distilled Pretraining:预训练阶段知识蒸馏会损害ICL能力

我们知道知识蒸馏(Knowledge Distillation)主要被视为一种模型压缩或在有监督微调阶段提升性能的手段。然而在过去的一年中,知识蒸馏在大模型预 ...

深入解读 RL's Razor:为何在线强化学习能有效缓解灾难性遗忘?

当我们使用新数据对大模型进行微调(Fine-tuning)时,模型在获得新能力的同时,往往会严重损害甚至完全忘记之前已经掌握的知识和技能。这就是灾难性遗忘(C ...

Meta Superintelligence Labs 首篇论文:重新定义 RAG

在RAG应用中,LLM的上下文主要由检索到的段落拼接而成,其中只有一小部分与用户的查询直接相关。由于在重排阶段的多样性或去重操作,这些段落间的语义相似性不高, ...

抛弃Self-Consistency的“答案投票”,用“PiCSAR”双重置信度作为BoN标准

BoN (Best-of-n) 策略的成败关键在于如何设计一个有效的评分函数(Scoring Function),用以在没有真实答案作为参照的情况下,准确地识 ...

Qwen提出LPPO框架,通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈

在RLVR的实践中,主流的研究方向长期聚焦于“数据为中心”(Data-Centric)的理念。研究者们投入大量精力进行算法设计(如PPO、GRPO及其变体)、 ...

DeepSeek V3.1 翻车了!字节 Seed 提出 Inverse IFEval 判断大型语言模型能否能听懂“逆向指令”?

大模型在处理非典型或反直觉指令时的鲁棒性待深入探索。我们或许都遇到过类似的情景:当我们给模型一个明确的指令,例如“你必须严格避免使用项目符号列表”,模型却依然 ...

全网最详细解读 OpenAI 最新论文:为什么大模型会存在“幻觉”?

大型语言模型(Large Language Models, LLMs)的能力日益增强,但一个挑战始终顽固地存在,即“幻觉” (hallucination) 问 ...

深度解析 Baichuan-M2:解决临床决策实用性难题,推出基于大规模验证器系统扩展医疗能力

今年,大模型在对话和推理能力上取得了长足的进步。但是在医疗领域,虽然在很多模型在 benchmark(如美国医师执照考试 USMLE)上刷得很高,但是在真实的 ...

LLM Post-Training 统一视角:清华 & 微信AI 提出统一 Policy Gradient 估计器

又一篇UFT(SFT+RL)的一篇论文(之前分享过两篇:MIT:UFT 统一监督微调(SFT)和强化微调(RFT)、RL+SFT 优势首融合,动态引导模型高效 ...