12
2026/05
腾讯混元提出 Uni-OPD:通过结果引导的边界校准统一 On-Policy Distillation
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文追踪 APP 推荐:DailyPapers
论文标题:Uni-OPD: Unifying On
...
腾讯混元新作:重新审视 GRPO,本质为响应单纯形上的隐式目标投影
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文追踪 APP 推荐:DailyPapers
论文标题:Listwise Policy Opti
...