机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次

18
2025/09

大模型

f-散度直击 GRPO 的传统 Reverse KL:用 Mass-Covering 解决多样性坍塌

我们知道可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)会提高模型的Pass@1 ...
4 小时前
4 0

专题展示

f-散度直击 GRPO 的传统 Reverse KL:用 Mass-Covering 解决多样性坍塌
4 小时前
Meta AI 新研究:基于结果的探索,共同提升pass@1和pass@k,缓解大模型推理中的多样性坍塌
2 天前
字节 Seed 提出 REER:由 Query 和 Answer 逆向得到 CoT,专注于开放式任务
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次