06
2025/10

GRPO 就是 DPO ? 2-GRPO 媲美 16-GRPO,训练时间缩短 70%

Group Relative Policy Optimization (GRPO) 作为一种面向大型语言模型(LLMs)训练后阶段的强化学习算法,在学术界和工 ...