AWS将把Cerebras晶圆级WSE‑3芯片引入云平台-电子产品世界手机版

AWS将把Cerebras晶圆级WSE‑3芯片引入云平台

智能计算时间：2026-03-16来源：

亚马逊云科技（AWS）将向客户开放使用 Cerebras Systems 公司的 WSE‑3 人工智能芯片。两家公司今日宣布了这一合作计划，这是一项多年战略合作的一部分，双方还将为 AI 推理工作负载共同打造解耦架构（disaggregated architecture），预计可将 AI 模型生成输出的速度提升5 倍。

Cerebras 的 WSE‑3 芯片集成90 万个计算核心与44GB 片上 SRAM，该处理器以水冷整机设备 CS‑3 的形式交付。这套系统大小近似迷你冰箱，将一颗 WSE‑3 与外置内存、网络设备及其他辅助组件整合在一起。

根据新公布的合作，AWS 将在其数据中心内部署 CS‑3 整机设备，并通过旗下 AWS Bedrock 服务向客户开放使用 —— 该服务提供自研及第三方基础模型的访问能力。CS‑3 可让神经网络以每秒数千个 token的速度生成提示响应。

双方联合研发的解耦架构将把 WSE‑3 与 AWS 自研 AI 芯片系列 Trainium 相结合，目标是加速客户的推理工作负载。

大语言模型处理提示词时，会将其拆分为名为token的小型数据单元，每个 token 包含若干字母或数字。LLM 会为提示中的每个 token 生成三个数学对象：键（Key）、值（Value）、查询（Query），帮助模型判断提示中哪些部分重要、哪些细节可降低优先级。

LLM 处理提示的过程称为预填充阶段（prefill），随后进入解码阶段（decode），模型在此阶段生成对用户问题的回答。

预填充与解码任务通常由同一块芯片完成。而在 AWS 的解耦架构中，Trainium 负责预填充阶段，WSE‑3 负责解码阶段。

解码涉及与预填充类似的计算，但需要显著更多的数据搬运，信息需要在芯片的逻辑电路与内存之间频繁传输。芯片搬运信息的速度越快，生成响应的速度就越快。

WSE‑3 的核心卖点之一，就是其逻辑与内存电路间的数据搬运速度远超许多其他芯片。据 Cerebras 介绍，该处理器提供27PB/s 的内部内存带宽，是英伟达 NVLink 显卡互联带宽的200 倍以上。

AWS 将在数据中心内通过自研网络设备Elastic Fabric Adapter（EFA，弹性结构适配器）连接 Trainium 与 WSE‑3 芯片。通常芯片间传输数据包需要经过主机服务器操作系统，而 EFA 跳过这一步以加速连接，并自动缓解网络拥塞。

“解耦架构非常适合大型、稳定的工作负载，”Cerebras 产品营销总监 James Wang 在博文中写道，“大多数客户会运行预填充 / 解码比例各异的混合工作负载，传统的聚合架构在此场景下依然是理想选择。我们预计大多数客户会希望同时使用两种方案。”

此次合作宣布前几周，Cerebras 刚刚拿下另一笔重磅芯片供应协议：OpenAI Group PBC 同意在 2028 年前向该公司采购750 兆瓦算力的计算基础设施，这笔交易据称价值超100 亿美元。该协议公布于 Cerebras 两轮融资之间，两轮融资合计为其募资超20 亿美元。

这家芯片制造商预计最快将于2026 年第二季度提交 IPO 申请。与 AWS 及 OpenAI 的合作有望提升投资者对其上市的兴趣。

关键词： AWS Cerebras 晶圆级 WSE‑3 芯片云平台

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

AWS将把Cerebras晶圆级WSE‑3芯片引入云平台

相关文章