首页 › 大模型 › 百面大模型-3

百面大模型-3

大模型预训练中的通常用什么优化器？

在现有的工作中，大型语言模型的训练普遍采用Adam及其变体AdamW。Adam优化器利用梯度的“动量”来确定参数的更新方向，它通过计算历史更新步骤中梯度的加权平均值来替代当前时刻的梯度，以此缓解由样本随机性引发的损失震荡问题。更进一步，Adam采用自适应的学习率策略，通过对梯度的加权“二阶矩”进行修正（这一过程可以视作使用“标准差”进行“归一化”）来防止梯度过小，进而避免模型陷入难以优化的困境。在大型模型的训练过程中，Adam优化器通常会引入三个超参数，并设置为： $\beta _1 = 0.9$ ， $\beta _2 = 0.95$ ，以及 $\epsilon = 10^{-8}$ 。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

0xC001

分享机器学习知识

百面大模型-2

百面大模型-4

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

百面大模型-3

猜你喜欢

随机文章