13

2025/10

ExGRPO：超越在线策略，让大模型从“经验”中高效学习推理

GRPO 或其变体等在线策略算法，遵循着一个严格的“生成-更新-丢弃”循环：模型根据当前策略生成一批经验数据（即解题轨迹），使用这批数据进行一次或几次梯度更新 ...

5 小时前

4 0