12
2026/05

腾讯混元提出 Uni-OPD:通过结果引导的边界校准统一 On-Policy Distillation

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Uni-OPD: Unifying On ...

腾讯混元新作:重新审视 GRPO,本质为响应单纯形上的隐式目标投影

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:Listwise Policy Opti ...