05

2026/02

MaxRL：重新审视强化学习与最大似然估计的统一

TL;DR 在基于采样的推理任务（如数学解题、代码生成）中，强化学习（RL）通常被视为一种针对不可微优化的解决方案。然而，来自 CMU、清华大学、UC Be ...

3 小时前

5 0