28

2025/09

陈丹琦团队新作：通过RLMT（模型奖励思考的强化学习）将推理能力泛化到开放式任务

对于大型语言模型（Large Language Models, LLMs）的研究而言，提升其推理能力，特别是模拟人类“系统2思维”（System 2 thin ...

5 小时前

6 0