
前言
在 AI 圈,Gemini 3 的发布无疑是一次巨大的飞跃。然而,在其惊人表现的背后,研发团队究竟经历了什么?Google DeepMind 的内部研究逻辑是怎样的?
近日,The MAD Podcast 主持人 Matt Turck 邀请到了 Gemini 3 预训练负责人 Sebastian Bourjou。这是 Sebastian 的个人播客首秀。作为 DeepMind 最顶尖的 AI 研究员之一,他不仅主导了 Gemini 3 的预训练,还曾参与过 Gopher、Chinchilla、Retro 等里程碑式项目的研发。
在这场长达数小时(整理后)的深度对话中,Sebastian 揭秘了 Gemini 3 的“秘密武器”,提出了“有限数据时代”的范式转移,并深入探讨了什么才是好的“研究品味”。
YouTube 链接:https://www.youtube.com/watch?v=cNGDAqFXvew
Gemini 3 的“简单”秘密与系统工程观
Matt Turck: Sebastian,非常欢迎你。我想从 Oriol Vinyals(DeepMind 研究副总裁)的一条推文开始。他说 Gemini 3 的秘密非常简单:更好的预训练和更好的后训练。这听起来谦虚得令人惊讶,因为 Gemini 3 相比前代实现了巨大的跨越。你作为预训练负责人,怎么看这个“秘密”?
Sebastian Bourjou: 谢谢 Matt。从我的视角来看,这其实很正常。人们往往期待每一代 Gemini 之间会有某种翻天覆地的单一变革,但实际上,Gemini 3 如此强大,是无数个微小改进的结晶。
这是一个由 150 到 200 人的大型团队在数据、模型、基础设施和评估等各个环节共同努力的结果。我们不再只是在构建一个模型,我们正在构建一个复杂的系统。
Matt Turck: “系统”这个词很有意思。你能展开说说吗?
Sebastian Bourjou: 过去,大家可能认为我们只是在训练一个神经网络架构,然后就结束了。但现在,围绕网络的整个系统——从自研的 TPU 芯片到可靠且可扩展的基础设施,再到极其复杂的后训练过程——所有这些环节的垂直整合才是关键。
在 DeepMind,研究和工程的界限已经模糊了。因为我们在处理如此庞大的系统,研究看起来像工程,工程也像研究。这种全栈整合让我们能以极高的效率调整那些“旋钮”。
迈向智能的路径——基准测试还是生产力?
Matt Turck: 那么,我们如何确信这些模型真的变“聪明”了,而不仅仅是在基准测试(Benchmarks)上刷分?
Sebastian Bourjou: 这是一个好问题。首先,基准测试确实变得越来越难。有些题目甚至让我也需要花费大量时间才能解答,尽管我有计算机科学背景。我们对测试集的保留非常谨慎,以防止过拟合。
但我最核心的信心来自于内部生产力。我们看到 DeepMind 内部使用模型来辅助研究和工程的时间在持续增加。每一代新模型都能做以前做不到的事,能切实帮助我们加快研究进度。这比任何分数都更能说明模型变得更强大了。
范式转移——从“无限数据”到“有限数据”
Matt Turck: 你在开场时提到了一个非常关键的观点:我们正在经历一场范式转移。能详细解释一下吗?
Sebastian Bourjou: 是的。过去,我们处于“数据无限(Data Unlimited)”的状态,只要不断扩展规模就能获得进步。但现在,我们正在转向“数据受限/有限(Data Limited/Finite Regime)”。
Matt Turck: 这意味着互联网上的数据被用光了吗?
Sebastian Bourjou: 不完全是,但数据的增长速度可能跟不上我们对规模的渴求了。这迫使研究重心发生了变化:
-
架构创新变得更重要: 以前可以通过堆数据解决的问题,现在需要更好的架构,让模型在相同数据量下获得更好的结果。 -
合成数据(Synthetic Data): 这是一个巨大的研究方向。但我们要非常小心,如果你用一个强模型生成数据去训练未来的模型,如何确保新模型能超越它的“老师”?这是我们正在攻克的难题。
Matt Turck: 所以在数据有限的情况下,我们是在寻找像人类一样学习的方式吗?比如通过更少的经验获得更强的能力?
Sebastian Bourjou: 虽然我很喜欢这种类比,但目前 AI 训练使用的数据量依然比人类能接触到的多出好几个数量级。不过,进入“有限数据时代”意味着我们必须在数据效率上做文章。
架构深挖——MoE、原生多模态与长上下文
Matt Turck: 让我们聊聊 Gemini 3 的底层。它延续了 MoE(混合专家模型)架构,对吗?
Sebastian Bourjou: 没错。它是一个基于 Transformer 的 MoE 架构。简单来说,MoE 让我们能够在不增加推理计算成本的前提下,极大地增加模型的参数量。它通过动态路由,让不同的“专家”处理不同的输入片段。
Matt Turck: Gemini 3 强调它是“原生多模态(Natively Multimodal)”。这和把一堆专门模型拼接起来有什么区别?
Sebastian Bourjou: 区别在于同一个神经网络直接处理文本、图像、音频和视频。这虽然带来了很高的复杂性成本——我们需要在研究时考虑不同模态如何相互干扰——但其带来的跨模态理解能力是巨大的,远远超过了它的成本。
Matt Turck: 还有 长上下文(Long Context)。Gemini 1.5 已经很惊人了,Gemini 3 在这方面又做了什么?
Sebastian Bourjou: 我们在注意力机制(Attention Mechanism)方面有一些非常有趣的发现,这将塑造我们未来几个月的研究。长上下文不仅是关于“记住更多”,它更是为了实现 Agentic Workflows(代理工作流)。如果你想让 AI 处理整个代码库,极长的上下文是必须的。
什么是好的“研究品味”?
Matt Turck: 你提到了“研究品味(Research Taste)”这个词。在 DeepMind 这样一个顶尖实验室,你是如何定义它的?
Sebastian Bourjou: 研究品味在今天至关重要,但很难量化。我认为它包含两个核心要素:
-
协作与整合性: 你的研究不能是孤立的。如果一个改进能提升性能,但会让模型使用起来难上 5%,那这就是一个糟糕的折中方案。它会拖累整个团队的进度。 -
对复杂性的“过敏”: 我们每个人都有一定的“复杂性预算”。我们宁愿选择一个性能略低但复杂度更低的方案,因为简洁的系统更易于未来的迭代和扩展。
Matt Turck: 面对有限的算力,你们必须决定在“研究树”的哪个分支进行探索。
Sebastian Bourjou: 没错。大多数研究想法都会失败。但在深度学习中,一个“负面结果”往往不代表想法不行,可能只是你“还没让它奏效”。辨别什么时候该坚持、什么时候该放弃,就是研究品味的体现。
Deep Think 与 Agent 的未来
Matt Turck: 我们看到 Gemini 3 之后不久就发布了 Deep Think。这背后发生了什么?
Sebastian Bourjou: 简单来说,这是关于将计算力从预训练阶段转移到推理阶段。模型不再是瞬间给出一个答案,而是被允许生成假设、测试假设、调用工具、进行搜索,最后再给出结论。这就像是让模型有了一段“思考时间”来处理复杂的逻辑。
Matt Turck: 这是否意味着我们正在进入一个 Agent(智能体) 的时代?
Sebastian Bourjou: 绝对是。尤其是在工程和研究领域,感知和视觉能力的进步让模型能更好地理解屏幕,从而辅助我们处理那些琐碎的执行工作。
从个人经历看 AI 研究者的成长
Matt Turck: 让我们聊聊你个人。你在欧洲很多地方长大,最后去了剑桥。是什么让你走上这条路的?
Sebastian Bourjou: 我在荷兰出生,在瑞士和意大利长大。我父亲有技术背景,我 10 岁就开始跟着他编程。数学和科学对我来说一直比较轻松。
有趣的是,我进入 DeepMind 的过程有点偶然。我在剑桥读硕士时,一位讲师是 DeepMind 的研究员。最后一节课结束后,我鼓起勇气向他要了一个推荐。在那之后,我就以研究工程师的身份加入了 DeepMind,那是 2018 年。
Matt Turck: 你最初是在做强化学习(RL),后来为什么转向了大规模预训练?
Sebastian Bourjou: RL 很有趣,但我不太喜欢那些合成的、虚拟的环境(比如 Atari 游戏)。我更想处理现实世界的数据,构建能产生现实影响的东西。
我参与了 Gopher 的研发,那是我们第一个 2800 亿参数的大模型。后来,我们在 Chinchilla 项目中重新审视了缩放定律(Scaling Laws),发现我们应该更多地扩展数据,而不是模型参数。这些经验都直接反馈到了 Gemini 的研发中。
给后来者的建议
Matt Turck: 对于现在的学生或初创企业创始人,你有什么建议?
Sebastian Bourjou:
-
给学生: 不要只盯着模型架构。如果你能理解从 TPU 硬件到系统层再到模型研究的全栈工作原理,你将拥有某种“超能力”。这种跨层级的理解能让你看到别人看不到的改进空间。 -
给初创企业: 观察模型在过去一年半中的进步速度,并尝试向外推演。专注于那些通用模型目前进步缓慢、或者需要极度垂直领域知识的地方。
结语:未来会怎样?
Matt Turck: 你对未来两三年最期待的是什么?
Sebastian Bourjou: 我非常看好 AI 助力科学发现。DeepMind 历史上有很强的科学基因,我相信未来几年我们会看到 AI 辅助做出诺贝尔奖级别的突破。
最让我兴奋的是,虽然我们已经取得了这么多成就,但我看不到这条研究路径的尽头。进步完全没有放缓的迹象。
往期文章:
