07

2025/10

DeepSearch：将 MCTS 嵌入到 RLVR，解决信用分配难题

尽管 RLVR 在提升模型推理能力方面取得了显著成效，但是也有一个普遍存在的瓶颈：训练停滞期（Training Plateaus）。在经历了数千个step之后 ...

10 小时前

9 0