05
2025/11

清华 & 智谱推出 CROPI 框架:通过 Off-Policy Influence 来提升 RLVR 的数据效率

RLVR 的核心挑战还在于数据选择。现有的数据选择方法,大多依赖于启发式规则,例如根据问题的难度、模型输出的不确定性或通过率等指标来筛选训练数据。这类方法虽然 ...