25

2025/10

LoongRL：面向长上下文推理的强化学习

强化学习，特别是通过从结果中学习（outcome-based learning）的方法，在提升模型在数学、代码等短上下文、具有明确验证标准的任务上的推理能力方 ...

6 小时前

6 0