AI 硬件设计如何破解 “内存墙” 瓶颈？-电子产品世界手机版

AI 硬件设计如何破解 “内存墙” 瓶颈？

智能计算时间：2026-03-20来源：

从通用计算转向 AI 专用硬件，其核心驱动力是深度学习模型特有的计算与能耗需求。随着模型规模扩展至万亿级参数，传统架构面临内存墙困境：在存储器与处理单元之间搬运数据所消耗的能量，已远超计算本身的能耗。

本文梳理了当前用于解决这类瓶颈的设计策略，覆盖从数据中心脉动阵列到功耗受限的边缘端加速器等各类场景。

问：标准 CPU 与 GPU 架构为何无法满足 AI 负载需求？

答：中央处理器（CPU）受限于面向通用任务设计的窄位宽向量处理单元与复杂缓存层次结构，在高并发 AI 运算中会产生显著延迟。

图形处理器（GPU）虽然并行度更高，但仍基于冯・诺依曼架构，存在明显的功耗与内存带宽瓶颈。

为解决这些问题，硬件架构师正采用跨材料、电路、架构与封装的多层级设计方法，如图 1 所示。

图 1. 先进 AI 芯片的多层级设计空间：覆盖材料、电路、架构与封装（图片来源：施普林格・自然）

设计工作通常围绕四大技术支柱展开：

问：AI 硬件加速的核心架构组件有哪些？

答：向领域专用架构转型需要多个基础模块，表 1 按功能与应用场景对其进行了分类：

表 1. 领域专用 AI 加速器的关键架构组件与功能定位

问：数据中心环境如何实现高吞吐量？

答：数据中心推理通常采用专用集成电路（ASIC），如谷歌张量处理单元（TPU）。图 2 框图详细展示了该架构的内部数据通路与控制接口。

云端 ASIC 中的矩阵乘法单元采用脉动数据流架构：数据按固定节律在算术逻辑单元阵列中流动，中间结果在 ALU 之间直接传递，再写回内存。

该设计最大化数据复用，使处理器每个周期可执行数万次运算，满足大规模矩阵 - 向量乘法需求。

问：边缘加速器在功耗管理上与云端系统有何不同？

答：边缘加速器的功耗限制极为严格，通常低于 25mW，因此必须采用算法 - 硬件协同设计，即软件与芯片同步设计以优化资源使用。典型案例是 MIT 的 Navion 芯片，如图 3 所示。

为摆脱对片外 DRAM 的依赖，Navion 采用了几项关键策略：

总结

AI 硬件设计的进步，本质上是为了应对冯・诺依曼架构固有的内存墙问题。

通过多层级设计理念，工程师可在材料、电路与封装层面全面优化性能：在云端，实现基于脉动阵列的高吞吐量 ASIC，支撑大规模并行矩阵运算；

在边缘端，受限于极低功耗预算，必须采用紧密的算法 - 硬件协同设计，通过帧压缩与稀疏性利用，在无需片外内存的情况下保证功能精度。

该领域的未来方向是协同异构计算，并全面转向存内计算（CIM），从根本上消除数据搬运瓶颈。

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码