18
2025/09
f-散度直击 GRPO 的传统 Reverse KL:用 Mass-Covering 解决多样性坍塌
我们知道可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)会提高模型的Pass@1
...