机器学习POD - 分享前沿人工智能算法

PretrainZero：将强化学习前置到预训练阶段的主动学习框架

论文标题：PretrainZero: Reinforcement Active Pretraining 论文链接：https://arxiv.org ...

56 秒前

0 0

LLM-as-a-Judge 评估中的偏差修正与置信区间构建

论文标题：How to Correctly Report LLM-as-a-Judge Evaluations 论文链接：https://arxiv ...

1 天前

14 2

Qwen 推出 MiniRL：关于大规模 RL 训练稳定性的研究和实践

论文标题：Stabilizing Reinforcement Learning with LLMs: Formulation and Practices ...

3 天前

79 4

DeepSeek-V3.2 技术报告深度解析：架构演进、RL 扩展与 Agent 合成数据

论文标题：DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models 论文链 ...

4 天前

115 2

Qwen3-VL 技术报告深度解析

论文标题：Qwen3-VL Technical Report 论文链接：https://arxiv.org/pdf/2511.21631 TL; ...

5 天前

129 2

Qwen 团队推出 SAPO，相较于 GRPO、GSPO 稳定且更优

论文标题：Soft Adaptive Policy Optimization 论文链接：https://arxiv.org/pdf/2511.203 ...

6 天前

96 0

主打自验证数学推理：DeepSeekMath-V2 技术报告解读

DeepSeekMath-V2发布了，主打可自验证的数学推理。论文标题：DeepSeekMath-V2: Towards Self-Verifiabl ...

1 周前

262 2

Anthropic 新作：利用“接种提示”可以阻止 Reward Hacking 引发的非对齐泛化

论文标题：NATURAL EMERGENT MISALIGNMENT FROM REWARD HACKING IN PRODUCTION RL 论文 ...

1 周前

98 2

弱师出高徒：COLM 2025 Delta Learning 揭示弱模型偏好数据如何驱动 SOTA 级后训练

昨天解读了 OLMo3 的技术报告，其中的 DPO 部分用到了名为 Delta Learning 的方法。提出这个方法的论文《The Delta Learn ...

1 周前

98 3

AllenAI OLMo 3 技术报告深度解析

报告链接：https://www.datocms-assets.com/64837/1763662397-1763646865-olmo_3_techn ...

1 周前

249 4