机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

28
2025/09

大模型

陈丹琦团队新作:通过RLMT(模型奖励思考的强化学习)将推理能力泛化到开放式任务

对于大型语言模型(Large Language Models, LLMs)的研究而言,提升其推理能力,特别是模拟人类“系统2思维”(System 2 thin ...
5 小时前
6 0

专题展示

陈丹琦团队新作:通过RLMT(模型奖励思考的强化学习)将推理能力泛化到开放式任务
5 小时前
腾讯提出单流策略优化(SPO):告别组同步瓶颈,回归RL本质
3 天前
北大 & 字节 Seed 提出 DACE:难度感知下的确定性引导探索
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2025 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化