机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

04
2026/06

大模型

直接蒸馏更强的教师模型不一定会带来更好的效果:重新审视 SFT 中的风格 token 与能力 token

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文追踪 APP 推荐:DailyPapers 论文标题:How to Fine-Tune a Re ...
3 小时前
8 1

专题展示

直接蒸馏更强的教师模型不一定会带来更好的效果:重新审视 SFT 中的风格 token 与能力 token
3 小时前
简单裁剪奖励为何会损失监督信号?重新审视 OPD 中的 token 筛选
1 天前
为什么在线自蒸馏在数学推理任务上往往失效?
1 周前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2026 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化