谷歌第八代TPU登场:TPU 8t强训练、TPU 8i破延迟,助力AI应用新飞跃

   发布时间:2026-04-23 13:46 作者:唐云泽

在Cloud Next '26峰会上,谷歌宣布推出第八代TPU架构,包含TPU 8t和TPU 8i两款芯片,分别针对AI训练与推理场景优化。TPU 8t主打大规模训练性能,TPU 8i则聚焦低延迟推理,两者预计于2026年下半年正式商用。目前该系列芯片采用申请制开放,Google Cloud用户需通过官网提交使用需求,原生PyTorch支持等软件功能仍处于预览阶段,仅向特定合作伙伴及早期客户开放测试。

TPU 8t通过SparseCore核心与Virgo网络拓扑的协同设计,将大规模预训练效率提升至新高度。其采用3D Torus网络架构,单个超级计算单元可集成9600颗芯片,共享2PB内存资源,总算力达121 ExaFlops。针对混合专家模型(MoE)的稀疏计算特性,SparseCore技术使矩阵乘法单元专注核心运算,避免因不规则内存访问导致的性能损耗。数据传输层面,Virgo网络将芯片间通信带宽翻倍,外部数据中心连接带宽提升四倍,配合Direct Storage技术绕过CPU直接读取高速存储,使训练速度提升十倍,单位算力性价比较前代提高2.7倍。

TPU 8i的硬件设计围绕长上下文推理场景展开。其配备288GB高带宽内存与384MB片上SRAM(容量较前代增加三倍),可将完整对话上下文缓存至芯片内部,减少外部数据交互频次。针对混合专家模型推理时的集体通信需求,CAE加速引擎将芯片间数据同步延迟降低五倍,互联带宽提升至19.2 Tb/s。网络拓扑方面,Boardfly架构借鉴Dragonfly设计思想,通过增加长距离直连链路,使1024颗芯片组成的系统中最远通信距离从16跳缩短至7跳,降幅达56%。这些优化使TPU 8i在推理任务中的性价比提升80%,配合谷歌自研Arm Axion架构CPU的能效优化,系统整体运行流畅度显著提升。

谷歌此次将TPU 8t与TPU 8i全面开放给云客户,支持PyTorch、JAX等主流AI框架,开发者无需学习新编程语言即可调用算力资源。公司同步提供开源参考模型代码,降低技术上手门槛。该举措旨在解决AI应用响应延迟的核心痛点——传统架构下用户语音数据需往返远程数据中心处理,而第八代TPU通过芯片级优化与网络拓扑革新,显著缩短数据传输路径,为实时交互类AI应用提供算力支撑。

随着AI训练与推理需求分化,谷歌TPU产品线正式进入精细化分工阶段。TPU 8t通过超级计算集群与稀疏计算优化,满足千亿参数模型训练需求;TPU 8i则凭借大容量缓存与低延迟通信,支撑复杂推理场景。这种设计思路与谷歌Gemini大模型的运行需求深度契合,也为全球开发者构建智能体时代的应用生态奠定算力基础。

 
 
更多>同类内容
全站最新
热门内容