05
2026/02

MaxRL:重新审视强化学习与最大似然估计的统一

TL;DR 在基于采样的推理任务(如数学解题、代码生成)中,强化学习(RL)通常被视为一种针对不可微优化的解决方案。然而,来自 CMU、清华大学、UC Be ...