大模型 - 机器学习POD

On-Policy Distillation 解读

大语言模型（LLM）的训练通常分为三个主要阶段：预训练（Pre-training）、中训练（Mid-training）和后训练（Post-training）。 ...

7 小时前

5 1

Google DeepMind：从开源模型中提取 SFT 和 RL 训练数据

当前，大型语言模型（LLM）领域的一个共识是，模型的卓越能力不仅源于其庞大的参数规模和海量的预训练数据，更在很大程度上依赖于高质量的“对齐”数据。这些数据，通 ...

23 小时前

17 1

南大 NeurIPS 2025：关于 LLM 内部概率与自洽性的理论研究

在众多大模型测试时扩展（Test-time Scaling）方法中，基于采样的（sampling-based）方法因其简单、通用且效果显著而成为主流。这类方法 ...

2 天前

25 0

LoongRL：面向长上下文推理的强化学习

强化学习，特别是通过从结果中学习（outcome-based learning）的方法，在提升模型在数学、代码等短上下文、具有明确验证标准的任务上的推理能力方 ...

3 天前

38 2

RL Grokking：解决 pass@K=0 难题的新思路

一个长期以来的问题：大型语言模型究竟能否通过强化学习（RL）获得真正意义上的新推理策略，还是说 RL 仅仅是对其在预训练或后训练阶段已存在能力的放大？一些研 ...

5 天前

39 1

重新思考 RLVR 中的基线设计：用分位数替代均值，让大模型强化学习更加稳定

现有的研究工作大多将注意力集中在如何防止 RLVR 熵坍塌上，例如通过提升低概率词元（token）的概率或惩罚导致坍塌的词元。这些方法在一定程度上缓解了过早收 ...

6 天前

48 1

SFT 是通用能力的“杀手”还是“背锅侠”？亚马逊新作揭示其“灾难性遗忘”的真相

SFT 使用特定领域的“指令-回答”数据对预训练好的通用模型进行训练，使其适应特定任务的需求，例如在医疗、金融或法律等专业领域提供更精准的回答。这种做法在提升 ...

7 天前

57 1

腾讯优图提出免训练GRPO，在上下文空间中实现策略优化

我们对如何有效规模化（scale）RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则（Scaling Laws）的预训练阶段不同，LLM 的 ...

1 周前

44 1

告别“炼丹”，拥抱“工程”：Meta AI 万字长文详解大模型强化学习的 Scaling Law

我们对如何有效规模化（scale）RL 的理解却远远没有跟上步伐。与已经建立起成熟、可预测的规模化法则（Scaling Laws）的预训练阶段不同，LLM 的 ...

1 周前

78 2

Google DeepMind 为提示词优化提供理论保证，文末附优化实践启示

对于大型语言模型（LLM）的研究者和实践者而言，提示工程（Prompt Engineering）已成为与模型交互、引导其生成特定高质量输出的核心技术。无论是通 ...

1 周前

60 2

大模型¹¹³

On-Policy Distillation 解读

Google DeepMind：从开源模型中提取 SFT 和 RL 训练数据

南大 NeurIPS 2025：关于 LLM 内部概率与自洽性的理论研究

LoongRL：面向长上下文推理的强化学习

RL Grokking：解决 pass@K=0 难题的新思路

重新思考 RLVR 中的基线设计：用分位数替代均值，让大模型强化学习更加稳定

SFT 是通用能力的“杀手”还是“背锅侠”？亚马逊新作揭示其“灾难性遗忘”的真相

腾讯优图提出免训练GRPO，在上下文空间中实现策略优化

告别“炼丹”，拥抱“工程”：Meta AI 万字长文详解大模型强化学习的 Scaling Law

Google DeepMind 为提示词优化提供理论保证，文末附优化实践启示

专题展示

大模型113

专题展示

大模型¹¹³