13

2025/08

超越二元奖励：训练语言模型审视自身的不确定性

优化大语言模型过程中，我们都会面临一个问题：通过强化学习（如 RLHF 或 RLVR）增强模型能力的同时，往往会以牺牲模型的校准度为代价，从而催生出更“自信的 ...

1 天前

12 0