14
2025/08
FlashRL:引入截断重要性采样,解决Rollout训练不匹配,RL加速可达1.75×
Rollout 生成是强化学习(RL)训练中的主要瓶颈,在 DAPO-32B 模型中约占总训练时间的 70%。FlashRL 提供了首个开源且可用的 RL
...