28
2025/10
On-Policy Distillation 解读
大语言模型(LLM)的训练通常分为三个主要阶段:预训练(Pre-training)、中训练(Mid-training)和后训练(Post-training)。
...