Nvidia 正在组装其下一个推理平台的零件吗?

智能计算 时间:2026-01-22来源:

image.png

不,我们没有错过英伟达在平安夜对AI加速器和系统启动公司以及竞争对手Groq进行了“收购”这一事实。但因为我们家圣诞节当天出差,而The Next Platform在度假,我们知道必须回去弄清楚英伟达花了200亿美元买到什么。

我们——尴尬地说——完全忽略了英伟达在2025年9月中旬以9亿美元收购网络融合初创公司Enfabrica的关键人员和关键知识产权授权,规模小得多。

这两点都指向了这款GPU加速器和互联制造商的AI推理方式——以至于几代后英伟达最终制造的设备根本称不上GPU。

目前英伟达推出的数据中心级GPU加速器几乎可以这样说,它们看起来越来越不像图形处理单元,更像是向量和张量引擎、缓存以及织物互连的复杂聚合,用于完成生成式人工智能和其他类型机器学习,有时还包括高性能计算(HPC)中相对低精度的数学。

这笔与格罗克的交易在多个方面都很特殊。第一个原因是为什么Groq的投资者最初会卖出。正如我们在分析AI模型制造商OpenAI与AI硬件新兴公司Cerebras Systems之间价值100亿美元的交易时指出的(Cerebras Systems成立于2015年,正值AI机器学习真正开始获得关注时),令人好奇的是,为什么Groq会在低延迟的同时出售, 高通量AI推断绝对必要,Groq是少数能与Nvidia抗衡的供应商之一。Cerebras拥有CS-2晶圆级计算引擎,谷歌拥有TPU,亚马逊网络服务拥有Trainium(现在没人再谈论Inferentia,因为Trainium既能做AI训练又能做推理,是唯一真正获得关注的AI虚拟处理器,而Nvidia的GPU主导了训练和推理,AMD则在数据中心GPU中占据了份额)。

从Groq的角度来看,现在是销售Nvidia GPU替代品的最佳时机,尽管Nvidia GPU虽然多功能,但价格昂贵。收购协议使英伟达获得了公司学习处理单元技术的许可,并以200亿美元聘请了Groq的大部分关键工程人员,包括联合创始人乔纳森·罗斯和首席运营官桑尼·马德拉。对于一家拥有五轮融资总额17.5亿美元、估值69亿美元的E轮融资到账的公司来说,这是一笔巨款。罗斯曾从沙特阿拉伯那里获得15亿美元的承诺,打算在达曼建设一个庞大的GroqCloud数据中心,但据我们所知,这尚未实现。这将是剩余的Groq会追求的业务,因为它基本上是GroqCloud的服务,一堆知识产权,据我们所知,并不是未来LPU或GroqWare产品线的计划。

收购通常既有防御也有进攻,而罗斯主导的全计划编译器——这让LPU与他在谷歌创建的最初TPU截然不同——是英伟达绝不希望落入敌人手中的关键资产。英特尔需要购买一个基于推断的人工智能未来,如果传闻中它在嗅探SambaNova,那么它也在嗅探Groq和Cerebras。但英特尔没有资金,而美国政府——现在的投资者——也在背后监视。AMD也是Groq的潜在买家,如果Groq的软件栈确实不同,理论上AMD仍有权授权它及其认为有用的硬件。

是的,我们知道。这真是太好笑了。

沙特阿拉伯为沙漠中的GroqCloud前哨站承诺15亿美元,这与实际合同,或者更好的是支票或电汇,是两码事。此外,15亿美元的AI投入如今并不算惊天动地,因为OpenAI已承诺为AI硬件提供约30吉瓦的容量。每个吉瓦的费用,取决于你问谁和具体情况,在每吉瓦350亿美元到500亿美元之间。可以称山姆·奥特曼的容量规划为梦想,30吉瓦耗资1.5万亿美元。Groq 与 Kingdom 的承诺比 Cerebras 刚与 OpenAI 签订的协议小 6.7 倍,也比 OpenAI 想建的项目小了三个数量级左右。

所以,当Ross和Huang开始讨论时,考虑到所有超大规模企业和云构建者都在开发自己的AI XPU,同时使用Nvidia和有时AMD的GPU,模型构建商如Anthropic也承诺使用Google TPU和AWS Tranium,2.9倍估值似乎是一个不错的退出价。如果看到Groq低级单位进入中国,而另一项行动将是个问题,而欧洲尚未完全找到以独特且本土化方式更全面参与基因人工智能热潮的方法。

即使没有英伟达可能想要剔除Groq的所有防御性理由,你也能理解为什么Ross和Groq的投资者对这笔交易持冷淡态度。因此,Groq的两位联合创始人之一Jonathan Ross现任英伟达首席软件架构师,Sunny Madra则是英伟达硬件副总裁。事情就是这样。

收购结构很简单:在看到全球反垄断监管机构对69亿美元收购Mellanox Technologies拖延不决,并粉碎了黄氏400亿美元收购Arm的梦想后,英伟达选择留下一个外壳,以免看起来像是买下了整个Groq。美国政府肯定会做出规则变更,但我们也假设黄也得到了特朗普总统的批准。

从我们的角度看,如果Groq团队被抽离,且剩余的Groq不会有未来LPU开发,那么英伟达就可能面临反垄断违规的风险,正如世界各国政府所解读的,这些政府无论喜不愿意,都对这类并购有发言权。如果英伟达不想触发监管机构,他们会做出一笔低于Groq当前估值的交易——远低于此价——然后Groq的创始人和投资者会在关门并打电话给AMD时笑得前仰后合。这里有很多“胆小鬼游戏”的感觉。

还有一点:没有规定英伟达必须使用其授权的技术。公司被收购后因要打破现状而被搁置的情况经常发生。我们最喜欢的例子是Transitive,其QuickTransit模拟器几乎能在Unix上运行大型机应用,或在Linux上运行Unix应用,几乎没有修改。QuickTransit被用于苹果创建的“Rosetta”仿真环境,该环境用于从PowerPC迁移到X86处理器,效果奇迹般出色。IBM被QuickTransit严重打击,于是在2008年底收购了Transitive。在关于在Power Systems机器上模拟其他系统的模糊说法后,Big Blue在2011年彻底关闭了它,不再谈论此事。

Enfabrica acquihire 与 Groq acquihire 类似,可能预示着建筑风格的变化......或者不。这可能只是伪装成英伟达路线图上技术的进攻混合的防御性作。(英伟达以前没这么做过,但今天的英伟达已经不是我们五、十年前所熟知的那个了。)

Enfabrica早在2021年6月就退出了隐秘模式,我们当时并不清楚公司计划做什么。到2023年3月,我们可以看到它正在发展,Enfabrica的“Millenium”ACF-S硅片将扩展内存和主机I/O融合到一块芯片,消除了网络接口卡、PCI-Express交换机、CXL交换机以及机架式或叶式交换机。

第一个将ACF-S应用于应用的产品称为SuperNIC,它被用来基于CXL构建扩展内存服务器,极大提升了AI推理工作负载核心KV缓存的规模和性能。这款名为Emfasys的内存神盒于2025年7月发布,重要的是,公司创始人当时告诉我们,在四个GB200 NVL72机架级服务器上增加一排Emfasys内存扩展器,可以将每枚令牌成本减半(这意味着通过这种扩展内存,GPU的吞吐量翻倍)。

我们认为英伟达有可能打造一台更优秀的推理机,而不仅仅是基于现有GPU架构,而Groq和Enfabrica的技术将在此过程中发挥作用。但同样有可能,这两笔收购交易实际上是为了确保没有其他人这样做。而且很可能两者同时存在。

“为什么不做这些?”正如我大两个双语孩子在他们半辈子前教我说的那样。

关键词: Nvidia 推理平台

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版