21

2025/10

腾讯优图提出免训练GRPO，在上下文空间中实现策略优化

我们对如何有效规模化（scale）RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则（Scaling Laws）的预训练阶段不同，LLM 的 ...

9 小时前

6 0