02
2025/11

浙大 & 阿里提出 RAVR:当 LLM 被“剧透”答案后,它的推理能力会发生什么变化?

我们知道 RL 在大模型应用的一个前提:模型必须已经具备以一定的概率,自主采样出有效的、有价值的推理路径的能力。强化学习的内在机制,更像是对模型现有能力的一种 ...