30

2024/08

百面大模型-7

DPO的损失函数是什么，第一步的loss为多少？ DPO的损失函数通常设计为最大化策略模型（即正在训练的模型）对偏好数据（chosen）和非偏好数据（rejected）之间的预测差异。具体来说，损失函 ...

12 月前

1,373 4

当前LLM的对齐过程通常分为SFT和RLHF两个阶段，我们是否有可能直接跳过SFT阶段而进入RLHF阶段？可以。论文ORPO: Monolithic Preference Optimizatio ...

12 月前

1,474 3