12

2025/11

Meta AI 最新研究：大模型强化学习的几何优化偏置

对于大语言模型的后训练（post-training）而言，研究者通常面临两种主流技术路径：监督微调（Supervised Fine-Tuning, SFT）和 ...

5 月前

464 1