07
2025/10
DeepSearch:将 MCTS 嵌入到 RLVR,解决信用分配难题
尽管 RLVR 在提升模型推理能力方面取得了显著成效,但是也有一个普遍存在的瓶颈:训练停滞期(Training Plateaus)。在经历了数千个step之后
...