英伟达——推理王国持续扩张

智能计算 时间:2026-03-25来源:SemiAnalysis

英伟达通过极致协同设计,每年从芯片、机柜到人工智能工厂,持续释放颠覆性技术优势

(注:文中涉及的英伟达产品代际与技术规格图表,已在翻译中转化为清晰的文字说明与表格,核心参数完整保留)

在 2026 年 GPU 技术大会(GTC)上,英伟达发布了一系列突破性成果,创新步伐丝毫未减。本次大会推出三款全新系统:Groq LPX、Vera ETL256 与 STX;同时公布 Kyber 机柜架构的重大更新,首次展示面向规模化扩展网络的共封装光学(CPO)技术,推出 Rubin Ultra NVL576 与 Feynman NVL1152 多机柜系统,并披露 Feynman 架构的早期细节。黄仁勋在主题演讲中重点提及的 InferenceX 技术,成为本次大会的一大亮点。

1774402257184254.png

本文将为你复盘 2026 年 GTC 大会核心内容,解答英伟达尚未明确的关键问题:深入解析 LPX 机柜与 LP30 芯片,阐释注意力与前馈网络解耦(AFD)技术原理;详解 NVL144、NVL576、NVL1152 背后的机柜架构差异,说明光模块的部署规模及高密 Vera ETL256 的设计逻辑;揭秘下一代 Kyber 机柜的重大更新与隐藏细节。

一、Groq 收购与 LPU 技术解析

近期人工智能基础设施领域最重大的事件之一,便是英伟达对 Groq 的 “收购”—— 严格来说,英伟达以 200 亿美元的价格获得 Groq 的 IP 授权,并吸纳其核心团队。这一交易形式虽未构成法律意义上的完全收购,却实质达到收购效果,既简化了监管审批流程(若按完全收购提交反垄断审查,大概率无法通过),又避免了冗长的交割周期,让英伟达迅速获得 Groq 的技术与人才。这也是为何交易宣布后不到四个月,英伟达便推出整合 Groq 技术的系统概念,并将其融入 Vera Rubin 推理架构。

1. LPU 架构核心原理

Groq 的 LPU(推理处理单元)架构最早在 2020 年国际计算机体系结构研讨会(ISCA)上披露。与传统多通用核心互联架构不同,LPU 将硬件重新设计为多个专用功能单元组(称为 “切片”),单元组间通过流寄存器、暂存 SRAM 实现数据交互。Groq 采用单级暂存 SRAM 而非多级存储层级,确保硬件执行的确定性。

LPU 架构包含四类切片:

切片按水平方向布局,数据沿水平方向流转;切片内部,指令沿垂直方向在单元间传输,整体类似 “垂直传指令、水平传数据” 的脉动阵列结构。这种数据流与指令流设计需通过细粒度流水线实现高性能,而确定性计算特性让编译器可通过激进的指令调度与重叠,隐藏延迟。高带宽 SRAM 与激进流水线设计,是 LPU 实现低延迟的两大核心。

1774402297966521.png

2. LPU 芯片迭代历程

3. SRAM 在存储层级中的定位

SRAM 的优势是低延迟、高带宽,但密度低、成本高。因此,以 Groq LPU 为代表的 SRAM 架构设备,首 token 生成速度与单用户每秒 token 生成量极快,但总吞吐量受限 —— 有限的 SRAM 容量易被权重占满,留给随用户批量增加而扩容的 KV 缓存空间有限。而 GPU 在吞吐量与成本上更具优势。

这也是英伟达决定整合两种架构的核心原因:将延迟敏感、内存需求较低的解码环节,交由低延迟、高 SRAM 占比的 LPU 处理;将内存密集型的注意力计算,交由具备大容量高速内存(虽不及 SRAM 快)的 GPU 完成,实现优势互补。

1774402340850476.png

各类存储介质性能对比

存储类型

单 GPU/XPU/LPU 容量

单 GPU/XPU/CPU 带宽

延迟

HBM4 12 层堆叠

约 288GB

约 22TB/s

约 100-150 纳秒

DDR5

128-1024GB(2-16 条 DIMM)

约 307-614GB/s

约 60-100 纳秒

GDDR7

约 16-48GB(8-12 颗芯片)

约 1.5-1.8TB/s

约 50-80 纳秒

LPU SRAM

约 500MB

约 150TB/s

约 5-20 纳秒

4. 第三代 LPU(LP30)核心规格

LP30 芯片采用接近掩模版尺寸的单片设计,无需先进封装,500MB 片上 SRAM 占用大量芯片面积,而矩阵乘法核心仅提供 1.2 PFLOPs 的 FP8 算力,远低于英伟达 GPU。相比第一代 LPU(230MB SRAM、750 TFLOPs INT8 算力),性能提升主要源于制程从格芯 14nm 迁移至三星 SF4 工艺。

采用 SF4 工艺的核心优势:不受台积电 N3 工艺产能限制(当前 N3 工艺制约加速器量产,是行业算力紧张的关键原因),且无需依赖同样紧缺的 HBM,让英伟达可在不占用宝贵的台积电产能与 HBM 配额的前提下,扩大 LPU 产量,创造独特的增量收入与产能优势。

1774402406956665.png

二、GPU 与 LPU 整合:注意力与前馈网络解耦(AFD)

英伟达引入 LPU 的核心目标是提升高交互场景的推理性能,核心技术路径之一便是注意力与前馈网络解耦(AFD)—— 该技术最早在 MegaScale-Infer 与 Step-3 中提出。

1774402435823174.png

1. LLM 推理的两个阶段

1774402499315528.png

2. 注意力与 FFN 的性能差异

注意力(Attention)与前馈网络(FFN)是模型中的两类核心运算:

随着最先进的混合专家(MoE)模型稀疏度不断提高,token 可选择的专家池扩大,每个专家接收的 token 减少,导致利用率下降 —— 这正是 AFD 技术的核心应用场景。

1774402573772874.png

3. AFD 技术原理

将注意力与 FFN 运算解耦,分别映射至不同硬件:

4. 令牌路由与通信优化

AFD 技术中,GPU 与 LPU 间的令牌路由可能成为瓶颈(尤其在严格延迟约束下),路由流程包含 “分发(dispatch)” 与 “合并(combine)” 两步:

为隐藏路由通信延迟,采用 “乒乓流水线并行” 技术:除将批量拆分为微批量并进行计算流水处理外,令牌在 GPU 与 LPU 间循环传输(类似 “乒乓”),最大化重叠计算与通信时间。

1774402654691916.png

5. 推测解码(Speculative Decoding)

LPU 加速解码的另一路径是推测解码:在 LPU 上部署草稿模型(draft model)或多令牌预测(MTP)层。

1774402683310765.png

核心原理:对于 N 个 token 的上下文解码,若新增 k 个 token(k<<N),延迟仅小幅增加。利用这一特性,草稿模型 / MTP 层先预测 k 个新 token(小模型解码延迟更低);主模型仅需对这 k 个 token 进行一次 “热身预填充” 验证,延迟相当于单次解码步骤。推测解码通常可将每步解码的输出 token 数提升 1.5-2 倍,而 LPU 的低延迟特性可进一步扩大延迟节省效果,提升吞吐量。

1774402710884470.png

与 AFD 技术不同,推测解码中的草稿模型 / MTP 层需动态加载 KV 缓存(有状态),且模型体积达数十 GB(远超单个 FFN 的数百 MB)。为此,LPX 计算托盘的结构扩展逻辑 FPGA,可为 LPU 提供高达 256GB 的 DDR5 内存支持。

三、LPX 机柜系统

英伟达在 GTC 上展示的 LPX 机柜包含 32 个 1U LPU 计算托盘与 2 个 Spectrum-X 交换机,这一配置与收购前 Groq 的原始服务器设计高度相似,但预计 2026 年第三季度量产时将有调整。以下是量产版本的核心细节:

1. LPX 机柜整体配置

组件

规格

光纤跳线 / 交换面板

-

电源架

1U,90kW(共 4 个)

带外管理交换机

1Gbe MGMT Switch 01 - SN2201 M DC

机柜加固件 + 接水盘

-

计算托盘

2U,含 16 颗 Groq 3 LPU、2 颗   FPGA、1 颗 CPU(共 16 个)

2. LPX 计算托盘核心设计

每个计算托盘(节点)包含 16 颗 LPU、2 颗阿尔特拉 FPGA、1 颗英特尔 Granite Rapids 主机 CPU 与 1 个 BlueField-4 前端模块(超大规模客户可替换为自定义网卡)。

3. LPU 网络架构(分为扩展网络与外联网络)

(1)扩展网络(C2C 网络)

分为节点内、节点间 / 机柜内、机柜间三个层级,英伟达宣称单机柜扩展带宽达 640TB/s(计算逻辑:256 颗 LPU × 90 通道 × 112Gbps/8 × 2 方向 = 645TB/s,注:英伟达采用 112G 线速计算,而非 100G 有效数据率)。

(2)外联网络

通过 Spectrum-X 以太网,实现 LPU 与英伟达 GPU 的通信。

1774402911389179.png

四、英伟达 CPO 路线图

英伟达在 2026 年 GTC 主题演讲中首次披露 CPO(共封装光学)路线图,黄仁勋在次日的财务分析师问答会上进一步补充说明。与行业预期不同,英伟达并未将 CPO 用于 Rubin Ultra Kyber 机柜的内部扩展,而是聚焦于构建更大规模的计算系统。

1. GTC 2026 披露的机柜级形态与 CPO 应用

系统

Rubin 系列



Feynman 系列



NVL 规格

NVL72

NVL144

NVL576

NVL72

NVL144

NVL1152

形态

Oberon

Kyber

8 个 Oberon 机柜

Oberon

Kyber

8 个 Kyber 机柜

机柜内扩展

铜背板

PCB 中板 + 飞线

铜背板

铜背板(推测)

PCB 中板 + 飞线(推测)

铜或 CPO(未确定)

机柜间扩展

CPO(DR 光模块)

CPO(DR 或 DWDM)

2. 各代产品 CPO 应用规划

3. 技术决策逻辑

英伟达的核心原则是 “能用电铜则不用光”:

1774403008567099.png

五、Oberon 与 Kyber 更新:更大规模扩展与网络升级

1. Kyber 机柜形态更新

Kyber 机柜首次作为原型机在 2025 年 GTC 展示,此次披露的量产版本有显著调整:

2. Rubin Ultra NVL144 核心参数


3. 更大规模扩展方案

1774403124565883.png

1774403152967503.png

Rubin Ultra NVL576:8 个低密 Oberon 机柜互联,机柜间需光互联(CPO 概率高于可插拔光模块),形成两层胖树架构。当前 Blackwell NVL576 原型机 “Polyphe” 采用可插拔光模块,但 Rubin Ultra NVL576 预计先以低批量测试形式推出,待      Feynman NVL1152 量产时,CPO 才会大规模应用。

1774403184513763.png

六、Feynman 架构前瞻

Feynman 虽未披露过多细节,但从大会预览可知,其将集成三大核心技术创新:混合键合 / 系统级芯片互联(SoIC)、A16、CPO 与定制 HBM,是极具突破性的平台。核心悬念在于 CPO 的应用范围 —— 机柜内互联将沿用铜还是转向光,后续将在付费内容中披露可能的配置方案。

七、Vera ETL256:超高密度 CPU 机柜

人工智能工作负载对数据处理、预处理与调度的需求日益增长,强化学习进一步提升 CPU 需求(CPU 需并行运行模拟、执行代码、验证输出)。由于 GPU 性能增长速度远超 CPU,需更大规模的 CPU 集群才能充分发挥 GPU 算力,CPU 已成为日益突出的瓶颈。

Vera ETL256 机柜专为解决这一问题设计,通过液冷实现超高密度部署:单机柜集成 256 颗 CPU,设计理念与 NVL 机柜一致 —— 通过极致密集的计算布局,让铜互联可覆盖机柜内所有节点,省去骨干网的光模块,铜互联的成本节省远超额外的冷却开销。

1. 机柜结构

八、CMX 与 STX:存储层标准化方案

1. CMX(推理上下文内存存储平台)

前身为 ICMS(推理上下文内存存储),是英伟达推出的 “G3.5 层” 存储解决方案,位于 G3 层(本地 SSD)与 G4 层(共享存储)之间,专为解决长上下文与智能体式工作负载中 KV 缓存快速扩张的瓶颈。

KV 缓存存储层级挑战

存储层级

介质

访问延迟

应用场景

核心特点

G1

GPU HBM

纳秒级

活跃 KV 缓存(生成中)

访问最快,每瓦性能、性价比最优

G2

系统 DRAM

纳秒级

暂存 / 溢出 KV 缓存

延迟递增,每 token 开销上升

G3

本地 SSD / 机柜本地存储

微秒级

短期复用的热 KV 缓存

延迟较高

G4

共享对象 / 文件存储

毫秒级

冷 KV 缓存或共享 KV 上下文

延迟最高,推理瓶颈,限制扩展,效率最低

CMX 的本质是通过 BlueField 网卡连接存储服务器与计算服务器(替代原有的 Connect-X 网卡),为 KV 缓存提供额外的卸载层级,缓解本地存储容量不足与共享存储延迟过高的矛盾。

2. STX:参考存储机柜架构

STX 是基于英伟达 BlueField-4 的存储解决方案参考架构,用于补充 VR 计算机柜,明确规定了特定集群所需的硬盘、Vera CPU、BlueField-4 数据处理单元(DPU)、CX-9 网卡与 Spectrum-X 交换机数量。


核心配置

3. 战略意义

BlueField-4、CMX 与 STX 共同构成英伟达存储层集群标准化的核心布局。在掌控计算与网络层后,英伟达正逐步向存储、软件与基础设施运营层扩张。

关键词: 英伟达 Groq LP30 LPX 机柜 AFD CPO Vera ETL256 CMX STX

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版