29
2025/10
NeurIPS 2025 高分论文 DisCO:利用判别式约束优化增强推理 LLM
尽管 GRPO 效果显著,学术界和工业界对其内在机制和潜在局限性的探索从未停止。一些研究尝试复现或改进 GRPO,但往往依赖于启发式或临时的技巧,缺乏对问题根
...