02

2025/11

浙大 & 阿里提出 RAVR：当 LLM 被“剧透”答案后，它的推理能力会发生什么变化？

我们知道 RL 在大模型应用的一个前提：模型必须已经具备以一定的概率，自主采样出有效的、有价值的推理路径的能力。强化学习的内在机制，更像是对模型现有能力的一种 ...

5 月前

398 1