08
2025/07
基于 VERL 的 TokenAwareBatchPack 实践,干掉 OOM,榨干序列并行
LRM 浪潮下,训练样本的长度不断增加,序列并行策略已成为训练中的常用选择。
然而,无论是常规训练还是序列并行训练,以“样本数量”定义批次的传统做法,都存在不容忽视的问题: 一方面,样本长度参差不齐
...