29
2025/09
Meta AI 提出基于 RL 的连续 CoT 训练新范式
标准的 CoT 过程是建立在离散的语言词元(discrete tokens)之上的。在推理的每一步,模型都必须从词汇表中采样一个确定的词元,这相当于在一个庞大
...