03
2025/11

Sea AI Lab 新研究:FP16 可以解决 RL 中的训推不一致

大模型强化学习微调不稳定的一个关键来源:训练-推理不匹配(training-inference mismatch)。为了最大化训练效率,框架通常会采用两种不同 ...