12
2026/03
OpenMOSS 团队提出 BandPO:通过概率感知边界连接 LLM RL 中的信任区域与比率裁剪
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:BandPO: Bridging Trust Regions and Ratio Clip
...