12
2025/11

Meta AI 最新研究:大模型强化学习的几何优化偏置

对于大语言模型的后训练(post-training)而言,研究者通常面临两种主流技术路径:监督微调(Supervised Fine-Tuning, SFT)和 ...