12

2026/03

OpenMOSS 团队提出 BandPO：通过概率感知边界连接 LLM RL 中的信任区域与比率裁剪

让每一项优秀工作，被更多人看见：点击进入投稿通道论文标题：BandPO: Bridging Trust Regions and Ratio Clip ...

3 小时前

3 0