机器学习POD - 分享前沿人工智能算法

DeepSeek-V3.2 技术报告深度解析：架构演进、RL 扩展与 Agent 合成数据

论文标题：DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models 论文链 ...

3 小时前

4 0

Qwen3-VL 技术报告深度解析

论文标题：Qwen3-VL Technical Report 论文链接：https://arxiv.org/pdf/2511.21631 TL; ...

1 天前

30 1

Qwen 团队推出 SAPO，相较于 GRPO、GSPO 稳定且更优

论文标题：Soft Adaptive Policy Optimization 论文链接：https://arxiv.org/pdf/2511.203 ...

2 天前

39 0

主打自验证数学推理：DeepSeekMath-V2 技术报告解读

DeepSeekMath-V2发布了，主打可自验证的数学推理。论文标题：DeepSeekMath-V2: Towards Self-Verifiabl ...

4 天前

150 1

Anthropic 新作：利用“接种提示”可以阻止 Reward Hacking 引发的非对齐泛化

论文标题：NATURAL EMERGENT MISALIGNMENT FROM REWARD HACKING IN PRODUCTION RL 论文 ...

4 天前

55 0

弱师出高徒：COLM 2025 Delta Learning 揭示弱模型偏好数据如何驱动 SOTA 级后训练

昨天解读了 OLMo3 的技术报告，其中的 DPO 部分用到了名为 Delta Learning 的方法。提出这个方法的论文《The Delta Learn ...

6 天前

66 0

AllenAI OLMo 3 技术报告深度解析

报告链接：https://www.datocms-assets.com/64837/1763662397-1763646865-olmo_3_techn ...

6 天前

168 3

HuggingFace 高分论文：首个达到 IPhO 金牌水平的开源模型是如何炼成的？

论文标题：P1: Mastering Physics Olympiads with Reinforcement Learning 论文链接：http ...

1 周前

92 0

Meta 提出 SoCE 策略，仅靠权重融合实现 SOTA

论文标题：Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Perfor ...

1 周前

135 0

陈丹琦团队新作 Retaining by Doing：揭示 RL 比 SFT 为什么更能缓解灾难性遗忘

论文标题：Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting ...

2 周前

102 1