微信团队提出 D3S:动态双层下采样加速大模型 RL 对齐

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:LEARNING MORE WITH LESS: A DYNAMIC DUAL-LEVEL ...

OpenMOSS 团队提出 BandPO:通过概率感知边界连接 LLM RL 中的信任区域与比率裁剪

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:BandPO: Bridging Trust Regions and Ratio Clip ...

ICLR 2026: 探讨无监督 RLVR 在 LLM 训练中的扩展边界

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:How Far Can Unsupervised RLVR Scale LLM Train ...

OpenAI 新作:推理模型在控制思维链上面临困难

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:Reasoning Models Struggle to Control their Ch ...

Meta 新作 Agentic Code Reasoning: 大模型代码语义推理与半形式化验证

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:Agentic Code Reasoning 论文链接:https://arxiv.o ...

LK Losses:投机采样中接受率的直接优化方法

让每一项优秀工作,都被更多人看见:点击进入投稿通道 论文标题:LK Losses: Direct Acceptance Rate Optimizati ...

腾讯混元提出 RubricBench:对齐模型生成的评分标准与人类标准

让每一项优秀工作,都被更多人看见:点击进入投稿通道 论文标题:RubricBench: Aligning Model-Generated Rubric ...

Weak-Driven Learning:弱模型如何助力强模型突破后训练瓶颈

让每一项优秀工作,都被更多人看见:点击进入投稿通道 论文标题:Weak-Driven Learning: How Weak Agents make S ...

Agentic Proposing——基于组合技能合成的大语言模型推理增强

论文标题:Agentic Proposing: Enhancing Large Language Model Reasoning via Composi ...

美团提出 DynaMO:面向RLVR的动态Rollout分配与优势调节策略

论文标题:How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage ...