机器学习POD - 分享前沿人工智能算法

为什么 LLM 微调收敛后仍会答错训练集？

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Why Supervised Fine-T ...

2 小时前

3 0

直接蒸馏更强的教师模型不一定会带来更好的效果：重新审视 SFT 中的风格 token 与能力 token

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：How to Fine-Tune a Re ...

1 天前

22 1

简单裁剪奖励为何会损失监督信号？重新审视 OPD 中的 token 筛选

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Trust Region On-Polic ...

2 天前

36 0

为什么在线自蒸馏在数学推理任务上往往失效？

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Anti-Self-Distillatio ...

1 周前

74 0

LLM 多目标 RL 中，为什么简单的奖励相加会导致训练不收敛？

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：DVAO: Dynamic Varian ...

1 周前

114 1

为什么无 Critic 的 GRPO 算法能在大模型对齐中奏效？

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Value-Gradient Hypot ...

2 周前

105 1

腾讯混元提出 EffOPD：在线蒸馏比强化学习更高效？基于参数更新视角的实证与理论分析

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Learning to Foresee: ...

3 周前

165 1

Hermes团队改写预训练：无需修改模型架构，Token 叠加如何实现 2.5 倍预训练提速

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Efficient Pre-Traini ...

3 周前

166 2

京东新作：训练-推理差异与策略滞后，如何在异步 RL 框架中实现解耦校正

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Missing Old Logits i ...

3 周前

144 3

腾讯混元提出 Uni-OPD：通过结果引导的边界校准统一 On-Policy Distillation

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Uni-OPD: Unifying On ...

3 周前

269 3