机器学习基础
强化学习基础
大模型
其它
大模型可视化
力扣出题频次
30
2024/08
百面大模型-7
DPO的损失函数是什么,第一步的loss为多少? DPO的损失函数通常设计为最大化策略模型(即正在训练的模型)对偏好数据(chosen)和非偏好数据(rejected)之间的预测差异。具体来说,损失函 ...
百面大模型-6
当前LLM的对齐过程通常分为SFT和RLHF两个阶段,我们是否有可能直接跳过SFT阶段而进入RLHF阶段? 可以。论文ORPO: Monolithic Preference Optimizatio ...
加载更多
专题展示
Meta提出StepWiser:引入思维块奖励,基准得分超传统方法20%
12 小时前
微软 & UCLA 新作:超越 Pass@1,通过自博弈和变分问题合成,持续提升大模型推理能力
1 天前
大模型SFT数据配比的一些实践启示
2 天前
机器学习基础
强化学习基础
大模型
其它
大模型可视化
力扣出题频次