10
2025/09
Meta AI 新作 Distilled Pretraining:预训练阶段知识蒸馏会损害ICL能力
我们知道知识蒸馏(Knowledge Distillation)主要被视为一种模型压缩或在有监督微调阶段提升性能的手段。然而在过去的一年中,知识蒸馏在大模型预
...