2024年8月27日 - 机器学习POD

百面大模型-3

大模型预训练中的通常用什么优化器？在现有的工作中，大型语言模型的训练普遍采用Adam及其变体AdamW。Adam优化器利用梯度的“动量”来确定参数的更新方向，它通过计算历史更新步骤中梯度的加权平均 ...

1 年前

1,079 4

1、大模型预训练中的学习率调整策略都有哪些？现有的大型语言模型在预训练阶段普遍采用相似的学习率调整策略，这一策略主要包括预热阶段和衰减阶段。预热阶段通常占据整个训练步骤的0.1%至0.5%，随后学 ...

1 年前

1,328 1

1、大模型预训练中的dynamic batching策略是什么？在大模型预训练中，通常将batch size设置为较大的数值，例如1M到4M个token，从而提高训练的稳定性和吞吐量。为了更好地训 ...

1 年前

1,472 1