机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次

12
2025/09

大模型

百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO

在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimiz ...
10 小时前
6 0

专题展示

百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO
10 小时前
Meta AI 新作 Distilled Pretraining:预训练阶段知识蒸馏会损害ICL能力
2 天前
深入解读 RL's Razor:为何在线强化学习能有效缓解灾难性遗忘?
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次