13
2025/10

ExGRPO:超越在线策略,让大模型从“经验”中高效学习推理

GRPO 或其变体等在线策略算法,遵循着一个严格的“生成-更新-丢弃”循环:模型根据当前策略生成一批经验数据(即解题轨迹),使用这批数据进行一次或几次梯度更新 ...