在人工智能领域,谷歌始终站在技术前沿,其一举一动都备受瞩目。近期,Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在一场访谈中,透露了未来大模型预训练领域的重大发展方向,引发了行业内的广泛关注。
Sebastian Borgeaud指出,在未来一年内,大模型预训练将在两个关键方向取得重大技术创新,分别是提升长上下文处理效率以及进一步扩展模型上下文长度。这一预测并非空穴来风,而是基于他们团队在相关领域的深入研究和探索。他透露,最近在注意力机制方面,团队有了一些非常有趣的发现,这些发现极有可能在未来几个月内重塑研究方向,为模型性能的提升带来新的突破。
Sebastian还强调了一个重要观点:“Scaling Law并未消亡,只是正在演变。”这一观点打破了传统认知,为AI发展注入了新的思考。作为Gemini 3的预训练负责人,Sebastian首次接受博客采访,深入剖析了Gemini 3背后的研发思路。他表示,如今的工作不再局限于“训练模型”,而是致力于构建一个完整的系统。这种转变看似简单,实则是一个根本性的认知升级。
Gemini 3之所以能实现巨大的性能飞跃,背后是无数细微改进的聚合。Sebastian提到,庞大团队日复一日地发现并优化各种“旋钮”,才带来了如今的成果。同时,他也指出AI发展范式正在发生潜在转移。过去,数据似乎取之不尽,我们可以随意扩大数据集;但现在,我们正逐渐步入“数据有限”的时代。这意味着未来的AI必须学会更高效地利用有限的数据资源,构建更复杂的系统工程。
这一转变将促使整个行业从“大力出奇迹”的粗放模式,转向“精雕细琢”的精细模式。未来的竞争焦点将不再是谁拥有更大的数据中心,而是谁的学习算法更高效、模型架构更优雅、谁能从有限数据中提取更多智慧。Gemini 3采用的混合专家模型MoE,就代表了大型语言模型(LLM)发展的清晰路径:从单纯追求“大”,转向追求“大而高效,大而智能”。
展望未来几年的技术前沿,Sebastian指出了几个激动人心的方向。首先是长上下文处理能力。Gemini 1.5已经展现了超长上下文能力带来的变革,而Sebastian预测,未来一年左右,在使长上下文更高效、进一步扩展上下文长度方面将会有更多创新。超长上下文将使模型变成一个真正的数字工作台,能够同时载入整个代码库、多篇科研论文、长时间对话历史,并进行连贯的分析、推理和创作,为复杂任务和深度研究提供前所未有的可能。
其次是注意力机制的进化。Sebastian特别提到,团队在注意力机制上有了一些真正有趣的发现,这将塑造未来几个月的大量研究。作为当前大模型的基石,注意力机制仍有巨大的改进空间,更高效、更强大或具备新特性的注意力机制有望从底层显著提升模型的理解、推理和计算效率。
检索能力的回归也是重要方向之一。Sebastian早期主导的“Retro”项目,研究让模型在训练和推理时检索外部知识库,而非将所有知识死记硬背在参数中。他认为这一方向远未过时,未来模型可能将检索与推理更原生地结合,动态地从海量知识源中获取信息进行思考,突破参数规模的知识容量限制。
效率与成本的“革命”也日益凸显。随着用户激增,模型的部署和服务成本变得至关重要。未来的研究将不仅追求性能峰值,还必须关注如何让强大模型变得“便宜又好用”。
与此同时,Jeff Dean、Noam Shazeer、Oriol Vinyals三位谷歌顶级科学家的对谈也传递出重要信息。作为Transformer的开创者,Noam Shazeer回归谷歌后,态度发生了明显变化。他不再像过去那样激进地追求“颠覆”,而是多次谈到研发节奏、系统稳定性以及长期运行等问题。他指出,现在的模型并不缺“聪明”,缺的是持续思考和在复杂任务中反复修正的能力。大模型的规模依然重要,但不再是决定一切的唯一变量。
Noam提到的“慢思考”理念,并非简单地放慢研发速度,而是反复权衡值不值、贵不贵、能不能被规模化复制。智能不再是一项抽象的能力,而是一项需要长期投入的工程开销,需要和CPU、硬盘等资源一起纳入成本考量。这一理念的转变,使得过去衡量AI的标准,如Benchmark逐渐失效。三位科学家在会议中没有表现出对榜单的兴奋,而是更关注模型是否可靠、是否具备迁移能力、是否能在复杂任务中持续自我修正。
在这场对谈中,“System”一词频繁出现。Noam和Jeff在描述Gemini时,刻意强调它是一个可以长期运行、不断迭代的“系统”,而非“一个更强的模型”。“模型”更像是一次性的成果,而“系统”则更像基础设施,关注稳定性、可扩展性以及错误修复能力。对于注重架构设计、研发节奏和工程约束的科学家们来说,一个系统能否稳健运行十年、二十年,远比某一次响应速度有多快更为重要。在他们眼中,Gemini不是胜利者的奖品,而是一种“长期可用”的智能形态。




















