06

2025/08

告别验证器依赖：RLPR如何将大模型推理能力泛化到通用领域

当今的大语言模型（LLM）在各类任务上展现了惊人的能力，但提升其逻辑推理能力，尤其是面对复杂问题时的深度推理，仍然是前沿研究的核心挑战。一种被称为“基于可验证 ...

5 天前

34 0

摘要: 2025年8月5日，OpenAI 投下了一颗重磅炸弹，发布了自 2019 年以来的首批开源权重模型：gpt-oss-120b 和 gpt-oss-2 ...

5 天前

55 0