09
2025/08
一行代码,解锁SFT泛化能力:深度解读DFT如何完胜传统微调
在大型语言模型 (LLM) 的世界里,如何让模型更好地理解并遵循人类的指令,即所谓的“对齐”,始终是核心议题。目前,主流的技术路线分为两条:监督微调(Supe
...
思维链再遭质疑!距离真正可泛化推理还很远吗?
近年来,大型语言模型(LLM)通过一种名为“思维链”(Chain-of-Thought, CoT)的提示技术,展现了令人惊叹的复杂推理能力。它们能够像人类一样
...