机器学习基础
强化学习基础
大模型
其它
大模型可视化

27

2026/02

美团提出 DynaMO：面向RLVR的动态Rollout分配与优势调节策略

论文标题：How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage ...

7 小时前

6 0

专题展示

美团提出 DynaMO：面向RLVR的动态Rollout分配与优势调节策略

7 小时前

你的推理模型其实知道何时停止：解决 Long CoT 中的“过度思考”

2 天前

小红书提出 VESPO 变分序列级软策略优化，从测度变换视角重构重要性采样

4 天前

机器学习基础
强化学习基础
大模型
其它
大模型可视化

Copyright © 2017-2026 机器学习POD. 京公网安备11010802044892号京ICP备2021031854号

机器学习基础
强化学习基础
大模型
其它
大模型可视化