28

2025/10

On-Policy Distillation 解读

大语言模型（LLM）的训练通常分为三个主要阶段：预训练（Pre-training）、中训练（Mid-training）和后训练（Post-training）。 ...

7 小时前

5 1