29

2025/10

NeurIPS 2025 高分论文 DisCO：利用判别式约束优化增强推理 LLM

尽管 GRPO 效果显著，学术界和工业界对其内在机制和潜在局限性的探索从未停止。一些研究尝试复现或改进 GRPO，但往往依赖于启发式或临时的技巧，缺乏对问题根 ...

7 小时前

7 0