AWS将把Cerebras晶圆级WSE‑3芯片引入云平台

智能计算 时间:2026-03-16来源:

亚马逊云科技(AWS)将向客户开放使用 Cerebras Systems 公司的 WSE‑3 人工智能芯片。两家公司今日宣布了这一合作计划,这是一项多年战略合作的一部分,双方还将为 AI 推理工作负载共同打造解耦架构(disaggregated architecture),预计可将 AI 模型生成输出的速度提升5 倍。

Cerebras 的 WSE‑3 芯片集成90 万个计算核心与44GB 片上 SRAM,该处理器以水冷整机设备 CS‑3 的形式交付。这套系统大小近似迷你冰箱,将一颗 WSE‑3 与外置内存、网络设备及其他辅助组件整合在一起。

根据新公布的合作,AWS 将在其数据中心内部署 CS‑3 整机设备,并通过旗下 AWS Bedrock 服务向客户开放使用 —— 该服务提供自研及第三方基础模型的访问能力。CS‑3 可让神经网络以每秒数千个 token的速度生成提示响应。

双方联合研发的解耦架构将把 WSE‑3 与 AWS 自研 AI 芯片系列 Trainium 相结合,目标是加速客户的推理工作负载。

大语言模型处理提示词时,会将其拆分为名为token的小型数据单元,每个 token 包含若干字母或数字。LLM 会为提示中的每个 token 生成三个数学对象:键(Key)、值(Value)、查询(Query),帮助模型判断提示中哪些部分重要、哪些细节可降低优先级。

LLM 处理提示的过程称为预填充阶段(prefill),随后进入解码阶段(decode),模型在此阶段生成对用户问题的回答。

预填充与解码任务通常由同一块芯片完成。而在 AWS 的解耦架构中,Trainium 负责预填充阶段,WSE‑3 负责解码阶段。

解码涉及与预填充类似的计算,但需要显著更多的数据搬运,信息需要在芯片的逻辑电路与内存之间频繁传输。芯片搬运信息的速度越快,生成响应的速度就越快。

WSE‑3 的核心卖点之一,就是其逻辑与内存电路间的数据搬运速度远超许多其他芯片。据 Cerebras 介绍,该处理器提供27PB/s 的内部内存带宽,是英伟达 NVLink 显卡互联带宽的200 倍以上。

AWS 将在数据中心内通过自研网络设备Elastic Fabric Adapter(EFA,弹性结构适配器) 连接 Trainium 与 WSE‑3 芯片。通常芯片间传输数据包需要经过主机服务器操作系统,而 EFA 跳过这一步以加速连接,并自动缓解网络拥塞。

“解耦架构非常适合大型、稳定的工作负载,”Cerebras 产品营销总监 James Wang 在博文中写道,“大多数客户会运行预填充 / 解码比例各异的混合工作负载,传统的聚合架构在此场景下依然是理想选择。我们预计大多数客户会希望同时使用两种方案。”

此次合作宣布前几周,Cerebras 刚刚拿下另一笔重磅芯片供应协议:OpenAI Group PBC 同意在 2028 年前向该公司采购750 兆瓦算力的计算基础设施,这笔交易据称价值超100 亿美元。该协议公布于 Cerebras 两轮融资之间,两轮融资合计为其募资超20 亿美元。

这家芯片制造商预计最快将于2026 年第二季度提交 IPO 申请。与 AWS 及 OpenAI 的合作有望提升投资者对其上市的兴趣。

 1773632733668024.png


关键词: AWS Cerebras 晶圆级 WSE‑3 芯片 云平台

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版