在文献中,大型语言模型的“涌现能力”被定义为“一种在小型模型中不存在,但在大型模型中才会显现的能力”。这也是大型语言模型与之前的预训练语言模型最为显著的不同之一。当模型规模达到一定程度时,其性能会显著地超过随机表现,这是涌现能力的一个特征。从比喻的角度来看,这种涌现的模式与物理学中的“相变”现象有着相似之处。从原则上说,尽管涌现能力可以与特定的复杂任务关联起来,但我们更加关注的是那些能够广泛应用于各种任务的通用能力。接下来,我们将简要介绍大型语言模型中的三种典型涌现能力,以及具备这些能力的代表性模型。

  • 上下文学习(In-context learning) 上下文学习能力是由GPT-3正式引入的:假设语言模型已经提供了自然语言指令和/或几个任务示例,它可以通过完成输入文本的单词序列生成测试实例的预期输出,而不需要额外的训练或梯度更新。在GPT系列模型中,175B的GPT-3模型通常具有很强的ICL能力,但GPT-1和GPT-2模型则不然。这种能力也取决于特定的下游任务。例如,对于13B的GPT-3,ICL能力可以在算术任务(如3位数的加减法)上出现,但175B的GPT-3甚至不能很好地处理波斯语的问答任务。
  • 按指令执行(Instruction following) 通过对一组用自然语言描述格式化的多任务数据集进行微调(称为“指令调整”),大型语言模型被证明可以在也以指令形式描述的未见任务上表现良好。通过指令调整,大型语言模型能够遵循新任务的任务指令,而无需使用明确的示例,从而具有改进的泛化能力。根据实验,当模型大小达到68B时,经过指令调整的LaMDA-PT开始显著优于未调整的版本,但对于8B或更小的模型大小则不然。最近的一项研究发现,PaLM至少需要62B的模型大小才能在四个评估基准上表现良好,尽管对于某些特定任务(如MMLU),可能需要的大小要小得多。
  • 逐步推理(Step-by-step reasoning) 对于小型语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学词问题。相比之下,借助思维链提示策略,大型语言模型可以通过利用涉及中间推理步骤的提示机制来解决此类任务。据推测,这种能力可能是通过训练代码获得的。一个实证研究表明,当应用于PaLM和LaMDA变体且模型大小大于60B时,CoT提示可以带来性能提升,而当模型大小超过100B时,其优势会变得更加明显。此外,使用CoT提示的性能提升似乎也因任务而异。