PretrainZero:将强化学习前置到预训练阶段的主动学习框架

论文标题:PretrainZero: Reinforcement Active Pretraining 论文链接:https://arxiv.org ...

LLM-as-a-Judge 评估中的偏差修正与置信区间构建

论文标题:How to Correctly Report LLM-as-a-Judge Evaluations 论文链接:https://arxiv ...

Qwen 推出 MiniRL:关于大规模 RL 训练稳定性的研究和实践

论文标题:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices ...

DeepSeek-V3.2 技术报告深度解析:架构演进、RL 扩展与 Agent 合成数据

论文标题:DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models 论文链 ...

Qwen3-VL 技术报告深度解析

论文标题:Qwen3-VL Technical Report 论文链接:https://arxiv.org/pdf/2511.21631 TL; ...

Qwen 团队推出 SAPO,相较于 GRPO、GSPO 稳定且更优

论文标题:Soft Adaptive Policy Optimization 论文链接:https://arxiv.org/pdf/2511.203 ...

主打自验证数学推理:DeepSeekMath-V2 技术报告解读

DeepSeekMath-V2发布了,主打可自验证的数学推理。 论文标题:DeepSeekMath-V2: Towards Self-Verifiabl ...

Anthropic 新作:利用“接种提示”可以阻止 Reward Hacking 引发的非对齐泛化

论文标题:NATURAL EMERGENT MISALIGNMENT FROM REWARD HACKING IN PRODUCTION RL 论文 ...

弱师出高徒:COLM 2025 Delta Learning 揭示弱模型偏好数据如何驱动 SOTA 级后训练

昨天解读了 OLMo3 的技术报告,其中的 DPO 部分用到了 名为 Delta Learning 的方法。提出这个方法的论文《The Delta Learn ...

AllenAI OLMo 3 技术报告深度解析

报告链接:https://www.datocms-assets.com/64837/1763662397-1763646865-olmo_3_techn ...