30
2024/08

百面大模型-7

DPO的损失函数是什么,第一步的loss为多少? DPO的损失函数通常设计为最大化策略模型(即正在训练的模型)对偏好数据(chosen)和非偏好数据(rejected)之间的预测差异。具体来说,损失函 ...

百面大模型-6

当前LLM的对齐过程通常分为SFT和RLHF两个阶段,我们是否有可能直接跳过SFT阶段而进入RLHF阶段? 可以。论文ORPO: Monolithic Preference Optimizatio ...