邬贺铨:2026年推理算力主导,智能体驱动云网算全面升级变革

   发布时间:2026-04-17 07:36 作者:冯璃月

随着人工智能与大模型技术的飞速发展,智能体正逐渐成为行业焦点。中国工程院院士邬贺铨指出,到2026年,全球推理算力预计将占AI算力总负载的70%至80%,而中国的推理需求将是训练需求的8倍。这一趋势标志着算力应用正从训练主导转向推理和智能体主导,推动算力架构、应用场景和商业模式发生深刻变革。智能体不再局限于简单的问答,而是向深度思考、多步规划和持续执行方向发展,算力架构也从注意力经济转向生产力经济,商业模式则从成本中心转变为价值引擎。

邬贺铨强调,智能体并非单一的主机,而是一种能力和资源。在大模型的支持下,单个智能体通过感知、记忆、规划、工具调用和行动执行形成闭环,成为专注于特定任务的智能单元。然而,单一智能体的应用边界和能力上限有限,缺乏跨智能体协作能力。因此,构建多智能体协同系统成为突破局限的关键。通过统一协调器的调度,相关智能体可以组织起来,共享记忆和高级规划,实现分布式、多角色、强协作的集体智能,处理复杂目标。

多智能体在开放网络中的规模化互联形成了智能体互联网(IoA)。与传统互联网实现主机和信息互联不同,IoA扩展为智能体和能力的互联。基于IPv6+,叠加新应用层协议,IoA实现智能体的唯一标识、自主发现、可信交互、协同执行和按需组网。智能体互联网以智能体群为互联对象,支撑智能体即服务(AaaS)。AaaS将智能体和智能体群的能力云化封装,通过API、SDK和低代码平台对外提供,支持租户化、弹性调度、托管运维和按需计费服务。

面向消费者的智能体(To C)主要有三种应用模式。第一种是云上APP寄生智能体,依赖微信、钉钉等宿主APP,依托云端算力运行,断网不可用。这类智能体作为APP内的AI插件和被动助手,可基于用户偏好自动完成操作,将聊天工具升级为具备思考、写作、读文件和控制设备能力的智能助手,但用户无法选择模型。第二种是终端OS原生智能体,预装于手机操作系统,如中兴通讯与字节跳动联合推出的豆包手机。这类智能体通过端云协同,按用户意图和偏好调度和聚合APP,自动执行业务流程,用户可控性强,断网仍可基础运行,但可能弱化APP界面,遭到应用厂商抵制,且过度主动可能违背用户意愿。第三种是本地自治加云端辅助的智能体,不依赖APP,但需手动安装独立PC软件,如“龙虾”AI私人管家。这类智能体决策和权限管理本地化,由用户驱动,基于授权按任务执行,不主动感知场景或服务,通过云上AaaS发现并协同其他智能体。

面向企业的智能体(To B)则有四大应用模式。第一种是流程自动化智能体,复刻人工逻辑,替代生产、运维等标准化流程,提升效率。第二种是行业专家智能体,依托行业知识库和知识图谱,提供决策参谋方案。第三种是多智能体协同,整合供应链、生产和物流等多领域智能体,实现跨环节协同。第四种是具身智能,支撑工业机器人等实体设备,完成感知、推理和物理执行的闭环。

邬贺铨指出,不同应用模式在算力、精度和网络需求上差异显著。针对中小企业自建算力不足和数据隐私风险高的痛点,本地初算加云端精算成为最优解,相当于存算分离或联邦计算,平衡成本与安全,实现算力应用的平权化。

智能体业务与传统互联网业务存在本质差异。驱动主体从人工操作变为机器自主循环,时间节律从昼夜分明变为7×24小时不间断运行,空间分布从集中式变为多点网状、多并发级联调用,会话从短对话、分钟级变为长上下文、小时或天级,流量从平稳变为“Token核爆”特征,单智能体Token消耗可达普通用户的10至1000倍。

这些差异对算力、云和网络提出了颠覆性要求。智能体需要GPU或NPU专用加速器,多智能体需同时占用多个隔离的“沙箱或进程”,并发密度激增,长上下文、多模态和批量推理对显存和带宽提出极高要求。尽管Token流量年增速高达330%,但通过小模型普及、极致压缩与稀疏化、长上下文优化,智能体时代算力增速可控制在41%左右,实现效率与成本的平衡。云服务方面,智能体时代要求智能体原生云,优先布局智能体原生架构,构建全局智能调度,搭建分布式记忆与向量引擎,深化“云—边—端”协同,强化算力与网络优化。网络方面,智能体使网络流量从南北向为主转为东西向占比80%,QPS提升10至100倍。网络需从行政区组网转向智算中心、区域云、边缘和终端四级架构,采用SRv6、云网虚拟化与编排技术、流量AI预测与调度等技术,保障确定性与高可靠性。

 
 
更多>同类内容
全站最新
热门内容