机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

10
2025/12

大模型

预训练、中期训练与强化学习在推理模型中的相互作用

论文标题:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Lan ...
3 天前
51 0

专题展示

谷歌 DeepMind & MIT 发布智能体 Scaling Law
14 小时前
Native Parallel Reasoner: 基于自蒸馏强化学习的原生并行推理框架
1 天前
预训练、中期训练与强化学习在推理模型中的相互作用
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化