邬贺铨：2026年推理算力主导，智能体驱动云网算全面升级变革-数码-沃资讯

随着人工智能与大模型技术的飞速发展，智能体正逐渐成为行业焦点。中国工程院院士邬贺铨指出，到2026年，全球推理算力预计将占AI算力总负载的70%至80%，而中国的推理需求将是训练需求的8倍。这一趋势标志着算力应用正从训练主导转向推理和智能体主导，推动算力架构、应用场景和商业模式发生深刻变革。智能体不再局限于简单的问答，而是向深度思考、多步规划和持续执行方向发展，算力架构也从注意力经济转向生产力经济，商业模式则从成本中心转变为价值引擎。

邬贺铨强调，智能体并非单一的主机，而是一种能力和资源。在大模型的支持下，单个智能体通过感知、记忆、规划、工具调用和行动执行形成闭环，成为专注于特定任务的智能单元。然而，单一智能体的应用边界和能力上限有限，缺乏跨智能体协作能力。因此，构建多智能体协同系统成为突破局限的关键。通过统一协调器的调度，相关智能体可以组织起来，共享记忆和高级规划，实现分布式、多角色、强协作的集体智能，处理复杂目标。

多智能体在开放网络中的规模化互联形成了智能体互联网（IoA）。与传统互联网实现主机和信息互联不同，IoA扩展为智能体和能力的互联。基于IPv6+，叠加新应用层协议，IoA实现智能体的唯一标识、自主发现、可信交互、协同执行和按需组网。智能体互联网以智能体群为互联对象，支撑智能体即服务（AaaS）。AaaS将智能体和智能体群的能力云化封装，通过API、SDK和低代码平台对外提供，支持租户化、弹性调度、托管运维和按需计费服务。

面向消费者的智能体（To C）主要有三种应用模式。第一种是云上APP寄生智能体，依赖微信、钉钉等宿主APP，依托云端算力运行，断网不可用。这类智能体作为APP内的AI插件和被动助手，可基于用户偏好自动完成操作，将聊天工具升级为具备思考、写作、读文件和控制设备能力的智能助手，但用户无法选择模型。第二种是终端OS原生智能体，预装于手机操作系统，如中兴通讯与字节跳动联合推出的豆包手机。这类智能体通过端云协同，按用户意图和偏好调度和聚合APP，自动执行业务流程，用户可控性强，断网仍可基础运行，但可能弱化APP界面，遭到应用厂商抵制，且过度主动可能违背用户意愿。第三种是本地自治加云端辅助的智能体，不依赖APP，但需手动安装独立PC软件，如“龙虾”AI私人管家。这类智能体决策和权限管理本地化，由用户驱动，基于授权按任务执行，不主动感知场景或服务，通过云上AaaS发现并协同其他智能体。

面向企业的智能体（To B）则有四大应用模式。第一种是流程自动化智能体，复刻人工逻辑，替代生产、运维等标准化流程，提升效率。第二种是行业专家智能体，依托行业知识库和知识图谱，提供决策参谋方案。第三种是多智能体协同，整合供应链、生产和物流等多领域智能体，实现跨环节协同。第四种是具身智能，支撑工业机器人等实体设备，完成感知、推理和物理执行的闭环。

邬贺铨指出，不同应用模式在算力、精度和网络需求上差异显著。针对中小企业自建算力不足和数据隐私风险高的痛点，本地初算加云端精算成为最优解，相当于存算分离或联邦计算，平衡成本与安全，实现算力应用的平权化。

智能体业务与传统互联网业务存在本质差异。驱动主体从人工操作变为机器自主循环，时间节律从昼夜分明变为7×24小时不间断运行，空间分布从集中式变为多点网状、多并发级联调用，会话从短对话、分钟级变为长上下文、小时或天级，流量从平稳变为“Token核爆”特征，单智能体Token消耗可达普通用户的10至1000倍。

这些差异对算力、云和网络提出了颠覆性要求。智能体需要GPU或NPU专用加速器，多智能体需同时占用多个隔离的“沙箱或进程”，并发密度激增，长上下文、多模态和批量推理对显存和带宽提出极高要求。尽管Token流量年增速高达330%，但通过小模型普及、极致压缩与稀疏化、长上下文优化，智能体时代算力增速可控制在41%左右，实现效率与成本的平衡。云服务方面，智能体时代要求智能体原生云，优先布局智能体原生架构，构建全局智能调度，搭建分布式记忆与向量引擎，深化“云—边—端”协同，强化算力与网络优化。网络方面，智能体使网络流量从南北向为主转为东西向占比80%，QPS提升10至100倍。网络需从行政区组网转向智算中心、区域云、边缘和终端四级架构，采用SRv6、云网虚拟化与编排技术、流量AI预测与调度等技术，保障确定性与高可靠性。