25
2025/10

LoongRL:面向长上下文推理的强化学习

强化学习,特别是通过从结果中学习(outcome-based learning)的方法,在提升模型在数学、代码等短上下文、具有明确验证标准的任务上的推理能力方 ...