06
2026/01
陈丹琦团队新作:负样本强化在 LLM 推理中的有效性机制
论文标题:The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
...