14

2025/08

FlashRL：引入截断重要性采样，解决Rollout训练不匹配，RL加速可达1.75×

Rollout 生成是强化学习（RL）训练中的主要瓶颈，在 DAPO-32B 模型中约占总训练时间的 70%。FlashRL 提供了首个开源且可用的 RL ...

1 天前

16 0