24
2025/08
MIT:UFT 统一监督微调(SFT)和强化微调(RFT)
我们知道,预训练 (Pre-training) 赋予了模型世界知识的广度,而后训练 (Post-training) 则像是精雕细琢的过程,旨在激发和增强模型在
...