09

2025/11

西湖大学提出 SimKO ：一种简单的 Pass@K 策略优化方法

在RLVR的框架下，模型的训练目标通常是最大化 pass@1 的性能。pass@1 指标衡量的是模型生成一次回答时，其正确率的期望值。为了提升 pass@1， ...

5 月前

1,058 1