谷歌第八代TPU深度解析:架构细节全揭秘
昨天晚上谷歌发布了最新的第八代TPU,下文是谷歌官方对该产品架构的解析。
在谷歌,TPU 芯片设计理念始终围绕三大核心:可扩展性、高可靠性、高能效。随着 AI 模型从稠密大语言模型,演进为超大规模混合专家模型(MoE)与强推理型架构,AI 硬件不能只单纯提升每秒浮点运算量(FLOPS),更要适配新一代算力任务特有的运算负载特征。
智能体 AI 的兴起,要求底层算力支撑超长上下文窗口与复杂串行逻辑推理。与此同时,世界模型成为传统序列预测架构的必然升级方向 —— 新型 AI 智能体能够模拟未来场景、预判事件结果,依靠自主 “想象” 学习,而非高风险试错迭代。第八代 TPU(TPU 8t、TPU 8i)正是谷歌针对这些挑战推出的专用芯片,让模型从训练首个 Token,到多轮逻辑推理收尾全流程,都以最优效率运行。该芯片可高效训练、部署谷歌DeepMind Genie 3 等世界模型,支撑数百万 AI 智能体在各类仿真环境中持续优化推理能力。
TPU 8:定制化专用架构
谷歌发现模型预训练、训后微调、线上推理服务三者底层算力需求差异持续拉大,因此第八代TPU 拆分出两套独立芯片:TPU 8t、TPU 8i。二者同为谷歌云 AI 超算核心组件,这套融合硬件、软件、高速互联的一体化架构,覆盖 AI 模型全生命周期。两款芯片共享谷歌 AI 底层技术栈、兼容全链路 AI 业务,但各自针对性解决不同环节算力瓶颈,极致优化开发全阶段效率。
同时第八代 TPU 全系搭载 Arm 架构 Axion CPU 主控,彻底解决数据预处理延迟导致的主机算力瓶颈。Axion 芯片可承载复杂数据预处理与任务调度,保障 TPU 算力持续满载、不闲置等待。
TPU 8t:大规模预训练旗舰芯片
TPU 8t 面向超大规模模型预训练、高嵌入密度算力场景优化,采用升级版 3D 环形拓扑网络,单个超级集群最高可接入9600 颗芯片。芯片面向海量跨集群训练任务最大化吞吐,保障大模型训练周期稳定可控。
TPU 8t 相较前代核心升级
稀疏计算核心(SparseCore)专属优势SparseCore 是 TPU 8t核心专用加速单元,专门处理嵌入查询不规则内存访问模式。矩阵运算单元(MXU)负责矩阵乘法运算,SparseCore 独立承担数据相关全聚合等集合通信运算,规避通用芯片普遍存在的无效运算阻塞问题。
向量单元与矩阵单元并行协同、均衡扩展架构大幅优化向量处理单元(VPU)配比,减少向量运算空闲耗时,让量化、Softmax、层归一化运算与 MXU 矩阵乘法深度并行重叠运行,避免芯片因串行向量任务空等,持续满载工作。
原生 FP4 浮点精度支持搭载原生 4 位浮点(FP4)格式,突破内存带宽瓶颈,在低精度量化下保障大模型精度不变,MXU 算力吞吐直接翻倍。参数位宽降低后,海量数据搬运功耗大幅下降,更大模型层可存入本地缓存,实现算力极致利用率。
图 1:TPU 8t 芯片架构框图
室女座(Virgo)高速网络,数据中心带宽最高提升 4 倍
为匹配 TPU 8t 海量数据吞吐需求,谷歌全新研发 Virgo 互联架构,训练场景数据中心网络(DCN)带宽最高提升至前代 4 倍。
这套面向极致 AI 算力的分布式扩展网络,采用高基数交换机减少层级,扁平化两层无阻塞拓扑结构,大幅降低跨节点通信延迟。网络采用多平面独立控制域设计互联 TPU 芯片,机柜同时对接木星南北向骨干网络,互通算力与存储资源。整套架构拥有超大二分带宽与确定性低延迟,支撑全球最大规模高可用 AI 训练集群。
芯片间互联(ICI)带宽翻倍,对外数据中心扩展带宽最高 4 倍,彻底缓解数据传输瓶颈。依托 JAX 与 Pathways 分布式框架,谷歌现已实现超 100 万颗 TPU 芯片单集群协同训练。Virgo 单套网络可互联 13.4 万颗 TPU 8t 芯片,无阻塞二分带宽高达 47Pbps,总算力超 160 万艾浮点,且近乎线性横向扩展。
图 2:TPU 8t 机柜接入 Virgo 高速网络拓扑
极速存储访问能力
TPU 8t 搭载 TPU 直连远程内存访问(TPUDirect RDMA)与TPU 直连存储技术:
TPU 直连 RDMA 绕过主机 CPU 与内存,实现 TPU 高带宽显存(HBM)与网卡直接数据传输,降低通信延迟、消除主机瓶颈,提升芯片间有效带宽。
TPU 直连存储同样绕过 CPU,实现 TPU 与 10T Lustre 高速托管存储直连内存访问,海量数据传输带宽翻倍。芯片可线速吞吐训练数据,处理多模态超大数据集时 MXU 全程满载不卡顿。
搭配 10T 级 Lustre 托管存储 + TPU 直存技术,百 PB 级数据集直达芯片算力,杜绝数据接入延迟拖慢训练进度。相较第七代 Ironwood TPU,存储访问速度提升10 倍。
图 3:上图为传统存储传输路径,下图为TPU 8t 直连存储传输路径
TPU 8i:模型采样、推理服务专用芯片
TPU 8i 面向模型训后微调、高并发逻辑推理场景设计,搭载超大片上静态缓存(SRAM)、全新集合通信加速引擎(CAE),以及推理专用 Boardfly 互联拓扑。
超大片上 SRAM 缓存片上 SRAM 容量是前代 3 倍,可完整存放超长上下文 KV 缓存,大幅降低长文本解码时核心空闲等待时间。
图 4:TPU 8i 芯片架构框图
集合通信加速引擎(CAE)针对模型采样算力瓶颈定制 CAE 引擎,近乎零延迟完成多核心结果聚合,深度加速自回归解码、思维链推理所需的规约与同步运算。
单颗 TPU 8i 内置两颗张量核心、一颗片上 CAE,替代前代 Ironwood TPU 四颗稀疏计算核心。CAE 让片上集合通信延迟降低 5 倍,单次运算等待时间大幅缩短,支撑百万级 AI 智能体高并发稳定运行。
Boardfly 层级互联拓扑3D 环形拓扑适合千芯片大规模组网,但芯片跳转节点多、全互联通信延迟较高。TPU 8i 改用板卡全互联分组架构,高基数设计最高互联 1152 颗芯片,缩短网络直径、减少数据包转发跳数。
混合专家模型、推理模型核心就是全节点互通通信,Boardfly 拓扑让这类密集通信任务延迟最高优化50%。
图 5:TPU 8i Boardfly层级拓扑结构
Boardfly 为天然分层架构,组成单元如下:
- 基础单元:4 颗芯片环形互联,对外提供 16 路扩展接口
- 分组单元:8 块板卡铜缆全互联,组成本地算力组
- 集群单元:36 个算力组通过光开关互联,最高 1024 颗芯片,任意两颗芯片通信最多仅需 7 跳
深度对比:环形拓扑 VS Boardfly 拓扑
TPU 8i 放弃环形拓扑,核心原因是网络直径。
8×8×16 规模(1024 芯片)3D 环形网络,最远芯片通信需要:8/2+8/2+16/2=16 跳
环形拓扑适合稠密模型相邻节点通信,但全节点互通延迟极高。在 MoE 与推理模型时代,任意芯片都需要随时互通 Token 数据,跳转次数直接决定性能。
Boardfly 借鉴蜻蜓网络架构,增加板组间长距光直连,扁平化全网拓扑。同等 1024 芯片集群,网络跳数从 16 跳压缩至7 跳。
网络直径缩减 56%,尾部延迟显著下降,CAE 引擎无需长时间跨集群等待数据。
图 6:TPU 8i 集群光开关互联,最长 7 跳通信路径
TPU 8t & TPU 8i 参数一览
参数 | TPU 8t | TPU 8i |
核心用途 | 大规模预训练 | 采样生成、推理服务、逻辑思考 |
网络拓扑 | 3D 环形 | Boardfly |
核心专用模块 | 稀疏核心(嵌入计算)、大模型解码引擎 | 集合通信加速引擎 CAE |
HBM 显存容量 | 216GB | 288GB |
片上 SRAM 缓存 | 128MB | 384MB |
FP4 峰值算力 | 12.6 PFLOPS | 10.1 PFLOPS |
HBM 带宽 | 6528 GB/s | 8601 GB/s(约 TPU 8t 1.3 倍) |
主控 CPU | Arm Axion | Arm Axion |
软件生态:性能优先全栈 AI 适配
硬件性能上限,完全由配套软件决定。第八代 TPU 沿用第七代 Ironwood 自研高性能软件栈,兼顾高层框架易用抽象性,同时支持轻量化自定义算子开发。
Pallas&Mosaic:原生支持 Python 硬件级算子语言 Pallas,精准压榨 TPU 8t 稀疏核心、TPU 8i CAE 全部性能
- 原生 PyTorch 支持:现已开放预览,原有 PyTorch 模型无需大幅改动即可迁移,完整支持动态执行等原生特性
- 跨代兼容:JAX、PyTorch、Keras 代码无缝向下兼容;XLA 自动适配新型拓扑与 CAE同步逻辑,开发者无需关心底层互联细节
跨代性能飞跃
软硬协同深度设计,让第八代 TPU 对比第七代 Ironwood 实现跨越式提升:
- 训练性价比:TPU 8t 大规模训练性价比最高提升 2.7 倍
- 推理性价比:TPU 8i 大 MoE 低延迟推理性价比提升80%
- 能效比:两款芯片每瓦性能均翻倍,支撑 AI 可持续规模化扩张
未来展望
谷歌为适配 AI 全生命周期多元化需求,拆分 TPU 8t、TPU 8i 两套专用系统,全面对接 JAX、PyTorch、vLLM、XLA、Pathways 等 AI 超算软件栈,并与 DeepMind 深度联合研发。芯片兼具超高性价比与极致能效。
模块化第八代架构,为后续技术迭代规划清晰路线。智能体时代算力需求全面革新:持续规划、循环反馈、自主学习的推理智能体,无法依靠传统训练、普通推理硬件高效运行,算力负载逻辑完全不同。谷歌第八代 TPU 架构,精准适配下一代智能 AI 核心算力需求。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
