机器学习POD 机器学习POD
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化

12
2026/03

大模型

OpenMOSS 团队提出 BandPO:通过概率感知边界连接 LLM RL 中的信任区域与比率裁剪

让每一项优秀工作,被更多人看见:点击进入投稿通道 论文标题:BandPO: Bridging Trust Regions and Ratio Clip ...
3 小时前
3 0

专题展示

OpenMOSS 团队提出 BandPO:通过概率感知边界连接 LLM RL 中的信任区域与比率裁剪
3 小时前
ICLR 2026: 探讨无监督 RLVR 在 LLM 训练中的扩展边界
2 天前
OpenAI 新作:推理模型在控制思维链上面临困难
3 天前
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化
Copyright © 2017-2026 机器学习POD. 京公网安备11010802044892号 京ICP备2021031854号
  • 机器学习基础
  • 强化学习基础
  • 大模型
  • 其它
  • 大模型可视化