13
2025/08
超越二元奖励:训练语言模型审视自身的不确定性
优化大语言模型过程中,我们都会面临一个问题:通过强化学习(如 RLHF 或 RLVR)增强模型能力的同时,往往会以牺牲模型的校准度为代价,从而催生出更“自信的
...