05
2026/02
MaxRL:重新审视强化学习与最大似然估计的统一
TL;DR
在基于采样的推理任务(如数学解题、代码生成)中,强化学习(RL)通常被视为一种针对不可微优化的解决方案。然而,来自 CMU、清华大学、UC Be
...