大模型12
大模型SFT经验
本文转载自https://zhuanlan.zhihu.com/p/809229182,作者ybq。
这篇文章介绍一下大模型的 sft 如何去做。相比较于上一篇文章介绍的 pretrain ,sft
...
大模型预训练经验
本文转载自https://zhuanlan.zhihu.com/p/718354385,作者ybq。
这篇文章介绍下如何从零到一进行 pretrain 工作。
类似的文章应该有很多,不同的地方
...
百面大模型-9
什么是策略梯度?
首先从文本生成角度简单介绍一下强化学习:
因为状态-动作空间非常庞大,将强化学习应用于对话生成是一个巨大的挑战。在这种背景下,我们将人类交互视为“环境”。在每个时间步 ,代理(即AI
...
百面大模型-8
大模型PPO中的奖励是什么?
在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。
为了防止模型被 Reward M
...
百面大模型-7
DPO的损失函数是什么,第一步的loss为多少?
DPO的损失函数通常设计为最大化策略模型(即正在训练的模型)对偏好数据(chosen)和非偏好数据(rejected)之间的预测差异。具体来说,损失函
...
百面大模型-6
当前LLM的对齐过程通常分为SFT和RLHF两个阶段,我们是否有可能直接跳过SFT阶段而进入RLHF阶段?
可以。论文ORPO: Monolithic Preference Optimizatio
...
百面大模型-5
以LLaMA模型为例,计算一下参数量
首先,假设词表大小为 ,模型包含 层解码器,中间状态的维度大小为 ,前馈网络层的中间状态维度大小为 。我们主要关注计算以下几个部分的参数量:
输入嵌入层:首先
...
百面大模型-4
1、Reward Model都有哪些训练形式?
奖励模型是通过在人类偏好数据上进行训练来设计的,旨在对模型的输出质量进行判别。该模型给出的分数能够在一定程度上反映人类的偏好。一般而言,奖励模型是基于
...
百面大模型-3
大模型预训练中的通常用什么优化器?
在现有的工作中,大型语言模型的训练普遍采用Adam及其变体AdamW。Adam优化器利用梯度的“动量”来确定参数的更新方向,它通过计算历史更新步骤中梯度的加权平均
...
百面大模型-2
1、大模型预训练中的学习率调整策略都有哪些?
现有的大型语言模型在预训练阶段普遍采用相似的学习率调整策略,这一策略主要包括预热阶段和衰减阶段。预热阶段通常占据整个训练步骤的0.1%至0.5%,随后学
...