26

2025/11

弱师出高徒：COLM 2025 Delta Learning 揭示弱模型偏好数据如何驱动 SOTA 级后训练

昨天解读了 OLMo3 的技术报告，其中的 DPO 部分用到了名为 Delta Learning 的方法。提出这个方法的论文《The Delta Learn ...

22 小时前

18 0