24

2025/08

MIT：UFT 统一监督微调（SFT）和强化微调（RFT）

我们知道，预训练 (Pre-training) 赋予了模型世界知识的广度，而后训练 (Post-training) 则像是精雕细琢的过程，旨在激发和增强模型在 ...

4 天前

47 0