05

2025/11

清华 & 智谱推出 CROPI 框架：通过 Off-Policy Influence 来提升 RLVR 的数据效率

RLVR 的核心挑战还在于数据选择。现有的数据选择方法，大多依赖于启发式规则，例如根据问题的难度、模型输出的不确定性或通过率等指标来筛选训练数据。这类方法虽然 ...

5 月前

459 1