25
2025/10
LoongRL:面向长上下文推理的强化学习
强化学习,特别是通过从结果中学习(outcome-based learning)的方法,在提升模型在数学、代码等短上下文、具有明确验证标准的任务上的推理能力方
...