机器学习基础
强化学习基础
大模型
其它
大模型可视化
MEMORYSTILL
30
2024/08
百面大模型-7
DPO的损失函数是什么,第一步的loss为多少? DPO的损失函数通常设计为最大化策略模型(即正在训练的模型)对偏好数据(chosen)和非偏好数据(rejected)之间的预测差异。具体来说,损失函 ...
百面大模型-6
当前LLM的对齐过程通常分为SFT和RLHF两个阶段,我们是否有可能直接跳过SFT阶段而进入RLHF阶段? 可以。论文ORPO: Monolithic Preference Optimizatio ...
加载更多
专题展示
蒙特卡罗和时序差分
1 月前
基于动态规划的强化学习算法
1 月前
什么是价值函数?
1 月前
机器学习基础
强化学习基础
大模型
其它
大模型可视化
MEMORYSTILL