21
2025/10

腾讯优图提出免训练GRPO,在上下文空间中实现策略优化

我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的 ...