谷歌第八代TPU深度解析:架构细节全揭秘

智能计算 时间:2026-04-23来源:

昨天晚上谷歌发布了最新的第八代TPU,下文是谷歌官方对该产品架构的解析。

在谷歌,TPU 芯片设计理念始终围绕三大核心:可扩展性、高可靠性、高能效。随着 AI 模型从稠密大语言模型,演进为超大规模混合专家模型(MoE)与强推理型架构,AI 硬件不能只单纯提升每秒浮点运算量(FLOPS),更要适配新一代算力任务特有的运算负载特征。

图片

智能体 AI 的兴起,要求底层算力支撑超长上下文窗口与复杂串行逻辑推理。与此同时,世界模型成为传统序列预测架构的必然升级方向 —— 新型 AI 智能体能够模拟未来场景、预判事件结果,依靠自主 “想象” 学习,而非高风险试错迭代。第八代 TPUTPU 8tTPU 8i)正是谷歌针对这些挑战推出的专用芯片,让模型从训练首个 Token,到多轮逻辑推理收尾全流程,都以最优效率运行。该芯片可高效训练、部署谷歌DeepMind Genie 3 等世界模型,支撑数百万 AI 智能体在各类仿真环境中持续优化推理能力。

TPU 8:定制化专用架构

谷歌发现模型预训练、训后微调、线上推理服务三者底层算力需求差异持续拉大,因此第八代TPU 拆分出两套独立芯片:TPU 8tTPU 8i。二者同为谷歌云 AI 超算核心组件,这套融合硬件、软件、高速互联的一体化架构,覆盖 AI 模型全生命周期。两款芯片共享谷歌 AI 底层技术栈、兼容全链路 AI 业务,但各自针对性解决不同环节算力瓶颈,极致优化开发全阶段效率。

同时第八代 TPU 全系搭载 Arm 架构 Axion CPU 主控,彻底解决数据预处理延迟导致的主机算力瓶颈。Axion 芯片可承载复杂数据预处理与任务调度,保障 TPU 算力持续满载、不闲置等待。

TPU 8t:大规模预训练旗舰芯片

TPU 8t 面向超大规模模型预训练、高嵌入密度算力场景优化,采用升级版 3D 环形拓扑网络,单个超级集群最高可接入9600 颗芯片。芯片面向海量跨集群训练任务最大化吞吐,保障大模型训练周期稳定可控。

TPU 8t 相较前代核心升级

稀疏计算核心(SparseCore)专属优势

SparseCore  TPU 8t核心专用加速单元,专门处理嵌入查询不规则内存访问模式。矩阵运算单元(MXU)负责矩阵乘法运算,SparseCore 独立承担数据相关全聚合等集合通信运算,规避通用芯片普遍存在的无效运算阻塞问题。

向量单元与矩阵单元并行协同、均衡扩展

架构大幅优化向量处理单元(VPU)配比,减少向量运算空闲耗时,让量化、Softmax、层归一化运算与 MXU 矩阵乘法深度并行重叠运行,避免芯片因串行向量任务空等,持续满载工作。

原生 FP4 浮点精度支持

搭载原生 4 位浮点(FP4)格式,突破内存带宽瓶颈,在低精度量化下保障大模型精度不变,MXU 算力吞吐直接翻倍。参数位宽降低后,海量数据搬运功耗大幅下降,更大模型层可存入本地缓存,实现算力极致利用率。

图片

 1TPU 8t 芯片架构框图

室女座(Virgo)高速网络,数据中心带宽最高提升 4 

为匹配 TPU 8t 海量数据吞吐需求,谷歌全新研发 Virgo 互联架构,训练场景数据中心网络(DCN)带宽最高提升至前代 4 倍。

这套面向极致 AI 算力的分布式扩展网络,采用高基数交换机减少层级,扁平化两层无阻塞拓扑结构,大幅降低跨节点通信延迟。网络采用多平面独立控制域设计互联 TPU 芯片,机柜同时对接木星南北向骨干网络,互通算力与存储资源。整套架构拥有超大二分带宽与确定性低延迟,支撑全球最大规模高可用 AI 训练集群。

芯片间互联(ICI)带宽翻倍,对外数据中心扩展带宽最高 4 倍,彻底缓解数据传输瓶颈。依托 JAX  Pathways 分布式框架,谷歌现已实现 100 万颗 TPU 芯片单集群协同训练。Virgo 单套网络可互联 13.4 万颗 TPU 8t 芯片,无阻塞二分带宽高达 47Pbps,总算力超 160 万艾浮点,且近乎线性横向扩展。

图片

 2TPU 8t 机柜接入 Virgo 高速网络拓扑

极速存储访问能力

TPU 8t 搭载 TPU 直连远程内存访问(TPUDirect RDMATPU 直连存储技术:

TPU 直连 RDMA 绕过主机 CPU 与内存,实现 TPU 高带宽显存(HBM)与网卡直接数据传输,降低通信延迟、消除主机瓶颈,提升芯片间有效带宽。

TPU 直连存储同样绕过 CPU,实现 TPU  10T Lustre 高速托管存储直连内存访问,海量数据传输带宽翻倍。芯片可线速吞吐训练数据,处理多模态超大数据集时 MXU 全程满载不卡顿。

搭配 10T  Lustre 托管存储 + TPU 直存技术,百 PB 级数据集直达芯片算力,杜绝数据接入延迟拖慢训练进度。相较第七代 Ironwood TPU,存储访问速度提升10 

图片

 3:上图为传统存储传输路径,下图为TPU 8t 直连存储传输路径

TPU 8i:模型采样、推理服务专用芯片

TPU 8i 面向模型训后微调、高并发逻辑推理场景设计,搭载超大片上静态缓存(SRAM)、全新集合通信加速引擎(CAE),以及推理专用 Boardfly 互联拓扑。

超大片上 SRAM 缓存

片上 SRAM 容量是前代 3 倍,可完整存放超长上下文 KV 缓存,大幅降低长文本解码时核心空闲等待时间。

图片

 4TPU 8i 芯片架构框图

集合通信加速引擎(CAE

针对模型采样算力瓶颈定制 CAE 引擎,近乎零延迟完成多核心结果聚合,深度加速自回归解码、思维链推理所需的规约与同步运算。

单颗 TPU 8i 内置两颗张量核心、一颗片上 CAE,替代前代 Ironwood TPU 四颗稀疏计算核心。CAE 让片上集合通信延迟降低 5 ,单次运算等待时间大幅缩短,支撑百万级 AI 智能体高并发稳定运行。

Boardfly 层级互联拓扑

3D 环形拓扑适合千芯片大规模组网,但芯片跳转节点多、全互联通信延迟较高。TPU 8i 改用板卡全互联分组架构,高基数设计最高互联 1152 颗芯片,缩短网络直径、减少数据包转发跳数。

混合专家模型、推理模型核心就是全节点互通通信,Boardfly 拓扑让这类密集通信任务延迟最高优化50%

图片

 5TPU 8i Boardfly层级拓扑结构

Boardfly 为天然分层架构,组成单元如下:

  • 基础单元:颗芯片环形互联,对外提供 16 路扩展接口
  • 分组单元:块板卡铜缆全互联,组成本地算力组
  • 集群单元:36 个算力组通过光开关互联,最高 1024 颗芯片,任意两颗芯片通信最多仅需 7 


深度对比:环形拓扑 VS Boardfly 拓扑

TPU 8i 放弃环形拓扑,核心原因是网络直径

8×8×16 规模(1024 芯片)3D 环形网络,最远芯片通信需要:8/2+8/2+16/2=16 

环形拓扑适合稠密模型相邻节点通信,但全节点互通延迟极高。在 MoE 与推理模型时代,任意芯片都需要随时互通 Token 数据,跳转次数直接决定性能。

Boardfly 借鉴蜻蜓网络架构,增加板组间长距光直连,扁平化全网拓扑。同等 1024 芯片集群,网络跳数从 16 跳压缩至

网络直径缩减 56%,尾部延迟显著下降,CAE 引擎无需长时间跨集群等待数据。

图片

 6TPU 8i 集群光开关互联,最长 7 跳通信路径

TPU 8t & TPU 8i 参数一览

参数

TPU 8t

TPU 8i

核心用途

大规模预训练

采样生成、推理服务、逻辑思考

网络拓扑

3D 环形

Boardfly

核心专用模块

稀疏核心(嵌入计算)、大模型解码引擎

集合通信加速引擎 CAE

HBM 显存容量

216GB

288GB

片上 SRAM 缓存

128MB

384MB

FP4 峰值算力

12.6 PFLOPS

10.1 PFLOPS

HBM 带宽

6528 GB/s

8601 GB/s(约 TPU   8t 1.3 倍)

主控 CPU

Arm Axion

Arm Axion

软件生态:性能优先全栈 AI 适配

硬件性能上限,完全由配套软件决定。第八代 TPU 沿用第七代 Ironwood 自研高性能软件栈,兼顾高层框架易用抽象性,同时支持轻量化自定义算子开发。

  1. Pallas&Mosaic:原生支持 Python 硬件级算子语言 Pallas,精准压榨 TPU 8t 稀疏核心、TPU 8i CAE 全部性能

  2. 原生 PyTorch 支持:现已开放预览,原有 PyTorch 模型无需大幅改动即可迁移,完整支持动态执行等原生特性
  3. 跨代兼容:JAXPyTorchKeras 代码无缝向下兼容;XLA 自动适配新型拓扑与 CAE同步逻辑,开发者无需关心底层互联细节


跨代性能飞跃

软硬协同深度设计,让第八代 TPU 对比第七代 Ironwood 实现跨越式提升:

  • 训练性价比:TPU 8t 大规模训练性价比最高提升 2.7 
  • 推理性价比:TPU 8i  MoE 低延迟推理性价比提升80%
  • 能效比:两款芯片每瓦性能均翻倍,支撑 AI 可持续规模化扩张

未来展望

谷歌为适配 AI 全生命周期多元化需求,拆分 TPU 8tTPU 8i 两套专用系统,全面对接 JAXPyTorchvLLMXLAPathways  AI 超算软件栈,并与 DeepMind 深度联合研发。芯片兼具超高性价比与极致能效。

模块化第八代架构,为后续技术迭代规划清晰路线。智能体时代算力需求全面革新:持续规划、循环反馈、自主学习的推理智能体,无法依靠传统训练、普通推理硬件高效运行,算力负载逻辑完全不同。谷歌第八代 TPU 架构,精准适配下一代智能 AI 核心算力需求。


关键词: 谷歌 第八代 TPU 架构

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版