09
2025/10

Meta AI 揭示 SFT 陷阱:盲目追求高分,可能会损害模型在 RL 阶段的潜力

对于大型语言模型(LLMs)的后训练(Post-Training)实践常常依赖于一个基础假设:在 SFT 阶段取得更高性能分数的模型,在后续的 RL 阶段也理 ...