机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次

26
2025/09

大模型

腾讯提出单流策略优化(SPO):告别组同步瓶颈,回归RL本质

当前,流行的范式是所谓的 group-based 方法,其代表是组相对策略优化(Group Relative Policy Optimization, GRP ...
5 小时前
7 0

专题展示

腾讯提出单流策略优化(SPO):告别组同步瓶颈,回归RL本质
5 小时前
北大 & 字节 Seed 提出 DACE:难度感知下的确定性引导探索
1 天前
从“方差坍塌”到“探索失效”:深入剖析强化学习在大型语言模型中的核心挑战
1 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
  • 力扣出题频次