谷歌AI掌门人Jeff Dean近日点赞了一项突破性研究,这项由清华姚班校友钟沛林团队主导的嵌套学习(Nested Learning,简称NL)范式,为解决大语言模型长期存在的灾难性遗忘问题提供了新思路。研究团队提出的Hope模型在语言建模与长上下文任务中展现出显著优势,相关论文已被NeurIPS 2025接收。
传统深度学习模型采用扁平化参数更新模式,通过堆叠网络层数或扩大模型规模提升性能,但这种"暴力堆参"的方式已逐渐触及瓶颈。研究指出,当前主流的Transformer架构本质上是NL范式的简化版本,其线性层结构未能充分发挥多层级协同的潜力。NL范式借鉴人类大脑的记忆机制,将模型重构为嵌套式优化体系,不同层级以差异化频率更新,实现短期记忆与长期规律的分层管理。
该研究提出三大核心创新:深度优化器通过神经网络预判梯度变化,替代传统优化器的固定公式;自我修改模型使架构在训练中自主调整参数,无需人工干预;连续记忆系统将二元记忆结构升级为多尺度记忆链,不同模块分别处理实时细节与长期规律。这些创新最终凝聚为Hope模型,在760M至1.3B参数规模下,其语言建模能力与推理水平均超越Transformer等主流模型,在Wiki文本困惑度、物理常识推理等指标上表现尤为突出。
这项研究的背后站着一位特殊的清华姚班校友——钟沛林。这位2016届毕业生在高中时期已是国际信息学竞赛的明星选手,2012年代表雅礼中学夺得IOI金牌,与发小艾雨青并称"雅礼双子星"。哥伦比亚大学博士毕业后,他加入谷歌纽约研究院担任算法科学家,期间主导了嵌套学习范式的研究。如今这对双子星已先后入职meta,分别担任AI科学家与软件工程师,继续在人工智能领域开拓新方向。
嵌套学习范式的提出标志着深度学习架构的范式转移。通过模拟人类认知机制,该研究为模型持续学习、长上下文推理等难题提供了全新解决方案。当AI模型从静态计算网络进化为分层协作的智能系统,或许将开启真正具备终身学习能力的通用人工智能新时代。



















