谷歌第八代TPU登场：TPU 8t强训练、TPU 8i破延迟，助力AI应用新飞跃-财经-沃资讯

谷歌第八代TPU登场：TPU 8t强训练、TPU 8i破延迟，助力AI应用新飞跃

发布时间：2026-04-23 13:46 来源：快讯作者：唐云泽

在Cloud Next '26峰会上，谷歌宣布推出第八代TPU架构，包含TPU 8t和TPU 8i两款芯片，分别针对AI训练与推理场景优化。TPU 8t主打大规模训练性能，TPU 8i则聚焦低延迟推理，两者预计于2026年下半年正式商用。目前该系列芯片采用申请制开放，Google Cloud用户需通过官网提交使用需求，原生PyTorch支持等软件功能仍处于预览阶段，仅向特定合作伙伴及早期客户开放测试。

TPU 8t通过SparseCore核心与Virgo网络拓扑的协同设计，将大规模预训练效率提升至新高度。其采用3D Torus网络架构，单个超级计算单元可集成9600颗芯片，共享2PB内存资源，总算力达121 ExaFlops。针对混合专家模型（MoE）的稀疏计算特性，SparseCore技术使矩阵乘法单元专注核心运算，避免因不规则内存访问导致的性能损耗。数据传输层面，Virgo网络将芯片间通信带宽翻倍，外部数据中心连接带宽提升四倍，配合Direct Storage技术绕过CPU直接读取高速存储，使训练速度提升十倍，单位算力性价比较前代提高2.7倍。

TPU 8i的硬件设计围绕长上下文推理场景展开。其配备288GB高带宽内存与384MB片上SRAM（容量较前代增加三倍），可将完整对话上下文缓存至芯片内部，减少外部数据交互频次。针对混合专家模型推理时的集体通信需求，CAE加速引擎将芯片间数据同步延迟降低五倍，互联带宽提升至19.2 Tb/s。网络拓扑方面，Boardfly架构借鉴Dragonfly设计思想，通过增加长距离直连链路，使1024颗芯片组成的系统中最远通信距离从16跳缩短至7跳，降幅达56%。这些优化使TPU 8i在推理任务中的性价比提升80%，配合谷歌自研Arm Axion架构CPU的能效优化，系统整体运行流畅度显著提升。

谷歌此次将TPU 8t与TPU 8i全面开放给云客户，支持PyTorch、JAX等主流AI框架，开发者无需学习新编程语言即可调用算力资源。公司同步提供开源参考模型代码，降低技术上手门槛。该举措旨在解决AI应用响应延迟的核心痛点——传统架构下用户语音数据需往返远程数据中心处理，而第八代TPU通过芯片级优化与网络拓扑革新，显著缩短数据传输路径，为实时交互类AI应用提供算力支撑。

随着AI训练与推理需求分化，谷歌TPU产品线正式进入精细化分工阶段。TPU 8t通过超级计算集群与稀疏计算优化，满足千亿参数模型训练需求；TPU 8i则凭借大容量缓存与低延迟通信，支撑复杂推理场景。这种设计思路与谷歌Gemini大模型的运行需求深度契合，也为全球开发者构建智能体时代的应用生态奠定算力基础。

更多>同类内容