09

2025/10

Meta AI 揭示 SFT 陷阱：盲目追求高分，可能会损害模型在 RL 阶段的潜力

对于大型语言模型（LLMs）的后训练（Post-Training）实践常常依赖于一个基础假设：在 SFT 阶段取得更高性能分数的模型，在后续的 RL 阶段也理 ...

8 小时前

6 0