马斯克点赞背后:Kimi挑战11年未变组件,AI架构迎新突破?

   发布时间:2026-03-17 16:31 作者:陈阳

科技领域近日因一则动态引发广泛讨论:特斯拉创始人马斯克在社交平台X上,对一家中国AI企业的技术成果公开表达赞赏。他评论称“月之暗面团队做出了令人印象深刻的工作”,这一表态迅速引发行业关注。作为以直言不讳著称的科技领袖,马斯克此前曾多次批评OpenAI、Anthropic等机构,此次对中国团队的认可显得尤为特别。

引发关注的成果并非新模型,而是一篇聚焦底层架构的技术论文。月之暗面团队提出用“注意力残差”替代Transformer架构中自2015年沿用至今的“残差连接”机制。传统残差连接通过将各层输出直接相加传递信息,但随着模型深度增加,早期层的信息会被稀释,导致训练不稳定。这一设计虽被广泛采用,却始终存在理论缺陷。

研究团队从Transformer的注意力机制获得灵感,提出让模型动态决定各层信息的权重。新方案通过可学习的查询向量,对历史层输出进行注意力计算,生成加权组合而非简单求和。这相当于为模型配备“智能筛选器”,能根据输入内容选择性地提取关键信息。实验数据显示,采用该架构的模型在科学问答、数学推理等任务中表现显著提升,且训练效率相当于传统方法1.25倍计算量的效果。

为解决大规模部署的内存瓶颈,团队进一步提出“块注意力残差”优化方案。通过将模型分层分组,仅在组间应用注意力机制,内存占用降低90%以上,推理延迟增加不足2%。这种“分而治之”的策略,使理论创新成功转化为工程实践。论文通过统一的结构化矩阵分析证明,此前所有残差连接变体本质上都是该方案的线性特例。

这项突破正值月之暗面融资关键期。2025年末至2026年初,该公司连续完成三轮融资,估值从43亿美元飙升至180亿美元。其K2.5模型发布首月收入即超2025全年总和,个人订阅用户支付订单数连续两月环比增长超100倍,跻身全球支付平台Stripe榜单前十。但高速发展也伴随争议——近期推出的云端部署服务Kimi Claw,因数据存储方式与开源项目OpenClaw的“本地优先”理念冲突,遭到该项目创始人公开质疑。

马斯克的点赞恰逢争议发酵期,为这场讨论增添新维度。尽管其表态未必涉及商业合作,但在资本市场叙事中,顶级科技领袖的认可往往具有特殊分量。该论文发布后,原本聚焦应用层的研究者开始重新审视底层架构创新,这场持续十一年的技术组件革新,或将引发行业连锁反应。目前,研究团队已开放代码库,全球多个实验室正尝试复现其实验结果。

 
 
更多>同类内容
全站最新
热门内容