03

2025/11

Sea AI Lab 新研究：FP16 可以解决 RL 中的训推不一致

大模型强化学习微调不稳定的一个关键来源：训练-推理不匹配（training-inference mismatch）。为了最大化训练效率，框架通常会采用两种不同 ...

5 月前

868 1