01
2025/09
腾讯提出TiG,开始用大模型来玩《王者荣耀》了
大型语言模型(LLMs)的出现,让我们看到了AI在处理复杂推理任务(如数学解题和编程)方面的能力。然而,这些模型在面对看似简单的交互式任务时,却常常显得力不从
...
EMNLP2025 CRAFT:RL引入对比学习,增加LLM训练稳定性,刷新推理上限
现有的强化学习微调方法(如ReFT)在实践中面临两大挑战:一是它们通常忽略了高质量的、由人类专家标注的思维链(Chain-of-Thought, CoT)数据
...