12

2025/09

百川提出DCPO：应用动态自适应裁剪、平滑优势标准化，性能优于 DAPO

在 RLVR 的实践中，尽管 GRPO 在多个任务上验证了其有效性，但后续研究，如 DAPO (Dynamic sAmpling Policy Optimiz ...

10 小时前

6 0