机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

29
2025/11

大模型

Qwen 团队推出 SAPO,相较于 GRPO、GSPO 稳定且更优

论文标题:Soft Adaptive Policy Optimization 论文链接:https://arxiv.org/pdf/2511.203 ...
15 小时前
10 0

专题展示

Qwen 团队推出 SAPO,相较于 GRPO、GSPO 稳定且更优
15 小时前
主打自验证数学推理:DeepSeekMath-V2 技术报告解读
3 天前
Anthropic 新作:利用“接种提示”可以阻止 Reward Hacking 引发的非对齐泛化
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化