10
2025/09

Meta AI 新作 Distilled Pretraining:预训练阶段知识蒸馏会损害ICL能力

我们知道知识蒸馏(Knowledge Distillation)主要被视为一种模型压缩或在有监督微调阶段提升性能的手段。然而在过去的一年中,知识蒸馏在大模型预 ...