23
2025/09

“移除”还是“回归”?深入探讨 GRPO 中 KL Loss

随着 DeepSeek 的 R1-Zero 等工作展示出大规模强化学习在提升语言模型复杂推理能力上的潜力,研究社区对于其背后所使用的强化学习算法——组相对策略优化(Group Relative Po ...