12
2025/09
百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO
在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimiz
...