机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

19
2025/10

大模型

告别“炼丹”,拥抱“工程”:Meta AI 万字长文详解大模型强化学习的 Scaling Law

我们对如何有效规模化(scale)RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则(Scaling Laws)的预训练阶段不同,LLM 的 ...
1 天前
16 0

专题展示

告别“炼丹”,拥抱“工程”:Meta AI 万字长文详解大模型强化学习的 Scaling Law
1 天前
Google DeepMind 为提示词优化提供理论保证,文末附优化实践启示
2 天前
Sanjeev Arora 团队新作 STAT:破解 SFT 饱和瓶颈,通过“技能驱动”让模型性能再提升7.5%
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化