09
2025/11

西湖大学提出 SimKO :一种简单的 Pass@K 策略优化方法

在RLVR的框架下,模型的训练目标通常是最大化 pass@1 的性能。pass@1 指标衡量的是模型生成一次回答时,其正确率的期望值。为了提升 pass@1, ...