29

2025/09

Meta AI 提出基于 RL 的连续 CoT 训练新范式

标准的 CoT 过程是建立在离散的语言词元（discrete tokens）之上的。在推理的每一步，模型都必须从词汇表中采样一个确定的词元，这相当于在一个庞大 ...

5 小时前

5 0