26
2025/11
弱师出高徒:COLM 2025 Delta Learning 揭示弱模型偏好数据如何驱动 SOTA 级后训练
昨天解读了 OLMo3 的技术报告,其中的 DPO 部分用到了 名为 Delta Learning 的方法。提出这个方法的论文《The Delta Learn
...