机器学习基础
强化学习基础
大模型
其它
大模型可视化

29

2025/11

Qwen 团队推出 SAPO，相较于 GRPO、GSPO 稳定且更优

论文标题：Soft Adaptive Policy Optimization 论文链接：https://arxiv.org/pdf/2511.203 ...

15 小时前

10 0

专题展示

Qwen 团队推出 SAPO，相较于 GRPO、GSPO 稳定且更优

15 小时前

主打自验证数学推理：DeepSeekMath-V2 技术报告解读

3 天前

Anthropic 新作：利用“接种提示”可以阻止 Reward Hacking 引发的非对齐泛化

3 天前

机器学习基础
强化学习基础
大模型
其它
大模型可视化

Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号京ICP备2021031854号

机器学习基础
强化学习基础
大模型
其它
大模型可视化