18

2025/09

f-散度直击 GRPO 的传统 Reverse KL：用 Mass-Covering 解决多样性坍塌

我们知道可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）会提高模型的Pass@1 ...

4 小时前

4 0