机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

21
2026/04

大模型

人大 & 字节 Seed 提出 Agent-World:实现 Agent 策略与训练环境的协同进化

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:Agent-World: Scaling Real-World Environment S ...
2 天前
4 0

专题展示

人大 & 字节 Seed 提出 Agent-World:实现 Agent 策略与训练环境的协同进化
2 天前
如何抑制大模型强化学习中的重复错误?MEDS 动态奖励框架解读
1 周前
大模型后训练再思考:决定推理SFT泛化能力的三个隐藏变量
2 周前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2026 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化