AI 硬件设计如何破解 “内存墙” 瓶颈?
从通用计算转向 AI 专用硬件,其核心驱动力是深度学习模型特有的计算与能耗需求。随着模型规模扩展至万亿级参数,传统架构面临内存墙困境:在存储器与处理单元之间搬运数据所消耗的能量,已远超计算本身的能耗。
本文梳理了当前用于解决这类瓶颈的设计策略,覆盖从数据中心脉动阵列到功耗受限的边缘端加速器等各类场景。
问:标准 CPU 与 GPU 架构为何无法满足 AI 负载需求?
答:中央处理器(CPU)受限于面向通用任务设计的窄位宽向量处理单元与复杂缓存层次结构,在高并发 AI 运算中会产生显著延迟。
图形处理器(GPU)虽然并行度更高,但仍基于冯・诺依曼架构,存在明显的功耗与内存带宽瓶颈。
为解决这些问题,硬件架构师正采用跨材料、电路、架构与封装的多层级设计方法,如图 1 所示。

图 1. 先进 AI 芯片的多层级设计空间:覆盖材料、电路、架构与封装(图片来源:施普林格・自然)
设计工作通常围绕四大技术支柱展开:
计算吞吐量:采用光子计算、大规模并行化等架构提升每秒运算次数。
能效:使用存内计算(CIM)与阻变存储器(ReRAM)、相变存储器(PCM)等非易失性存储技术,降低数据搬运能耗。
架构可重构性:设计可针对不同神经网络拓扑与持续演进算法进行优化的硬件。
多模态数据融合:采用 3D 单片集成技术整合不同处理单元,实现低延迟同时处理视觉、听觉与文本数据。
问:AI 硬件加速的核心架构组件有哪些?
答:向领域专用架构转型需要多个基础模块,表 1 按功能与应用场景对其进行了分类:
并行处理单元:用数千个小型并发单元替代通用控制逻辑,最大化矩阵密集型任务的吞吐量。
内存层次优化:采用高带宽互联与大容量片上缓存,保证计算单元的数据供给,尽量减少片外 DRAM 访问。
能效管理:通过动态电压频率调节、低精度运算(如 INT8、FP8、FP4)等技术,使硬件在限定热功耗范围内工作,同时不明显降低推理精度。
表 1. 领域专用 AI 加速器的关键架构组件与功能定位

问:数据中心环境如何实现高吞吐量?
答:数据中心推理通常采用专用集成电路(ASIC),如谷歌张量处理单元(TPU)。图 2 框图详细展示了该架构的内部数据通路与控制接口。
云端 ASIC 中的矩阵乘法单元采用脉动数据流架构:数据按固定节律在算术逻辑单元阵列中流动,中间结果在 ALU 之间直接传递,再写回内存。
该设计最大化数据复用,使处理器每个周期可执行数万次运算,满足大规模矩阵 - 向量乘法需求。

问:边缘加速器在功耗管理上与云端系统有何不同?
答:边缘加速器的功耗限制极为严格,通常低于 25mW,因此必须采用算法 - 硬件协同设计,即软件与芯片同步设计以优化资源使用。典型案例是 MIT 的 Navion 芯片,如图 3 所示。
为摆脱对片外 DRAM 的依赖,Navion 采用了几项关键策略:
硬件级数据压缩:在图像采集端直接压缩视觉数据,减少内存占用。
稀疏性利用:针对视觉惯性里程计(VIO)计算中位姿图与线性求解器的天然稀疏性做硬件优化,降低片上内存需求与处理周期。
前端紧耦合:视觉前端与惯性测量单元前端深度集成、共享内存,将片上存储需求压缩至约 854KB。

总结
AI 硬件设计的进步,本质上是为了应对冯・诺依曼架构固有的内存墙问题。
通过多层级设计理念,工程师可在材料、电路与封装层面全面优化性能:在云端,实现基于脉动阵列的高吞吐量 ASIC,支撑大规模并行矩阵运算;
在边缘端,受限于极低功耗预算,必须采用紧密的算法 - 硬件协同设计,通过帧压缩与稀疏性利用,在无需片外内存的情况下保证功能精度。
该领域的未来方向是协同异构计算,并全面转向存内计算(CIM),从根本上消除数据搬运瓶颈。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
