17
2025/10

Sanjeev Arora 团队新作 STAT:破解 SFT 饱和瓶颈,通过“技能驱动”让模型性能再提升7.5%

当我们试图通过在特定领域(如数学推理)的数据集上进行监督微调(Supervised Fine-Tuning, SFT)来提升模型性能时,常常会观察到一个性能瓶 ...