09
2025/08

一行代码,解锁SFT泛化能力:深度解读DFT如何完胜传统微调

在大型语言模型 (LLM) 的世界里,如何让模型更好地理解并遵循人类的指令,即所谓的“对齐”,始终是核心议题。目前,主流的技术路线分为两条:监督微调(Supe ...

思维链再遭质疑!距离真正可泛化推理还很远吗?

近年来,大型语言模型(LLM)通过一种名为“思维链”(Chain-of-Thought, CoT)的提示技术,展现了令人惊叹的复杂推理能力。它们能够像人类一样 ...