28
2025/09
陈丹琦团队新作:通过RLMT(模型奖励思考的强化学习)将推理能力泛化到开放式任务
对于大型语言模型(Large Language Models, LLMs)的研究而言,提升其推理能力,特别是模拟人类“系统2思维”(System 2 thin
...