人工智能系统亟待跨越的下一道难关
人工智能的发展之路并非一帆风顺。媒体与华尔街对人工智能行业情绪的任何细微变化,都会表现出极端且剧烈的反应。狄更斯早已预见这般光景:“那是最美好的时代,那是最糟糕的时代;那是智慧的年头,那是愚昧的年头;那是信仰的时期,那是怀疑的时期;那是光明的季节,那是黑暗的季节;那是希望的春天,那是失望的冬天。” 在这些喧嚣的头条背后,人工智能推理的规模化发展正面临一个关键难题:芯片的理论峰值性能与系统厂商能实际保障的性能之间,差距正不断扩大。这一差距对算力的功耗需求和系统安全性,都产生了重大影响。
这一性能差距究竟从何而来?
大型半导体系统会大量采用预先设计的子系统,这些子系统要么是企业为前代产品自研的,要么是从外部采购的。如今数据中心和汽车领域普遍采用的芯粒架构设计,更是如此。行业头部企业能提供各类顶尖的芯粒子系统,包括服务器 CPU 子系统、人工智能加速器子系统、高带宽内存子系统等,而其他芯粒则由半导体系统主设计商自主研发。芯粒之间的连接通过行业标准的 UCIe 接口实现。
由这些组件搭建的系统,每个组件都经过独立认证、具备高性能,且通过行业标准接口互连,按理说理应实现接近最优的吞吐效率,可事实并非如此。究其原因,是半导体产品的商业属性决定了,这类造价高昂的大型产品必须同时处理多项推理任务。单颗芯粒的设计初衷本就包含多任务处理能力,但没有任何一颗芯粒负责管控芯粒之间的通信流量性能。UCIe 接口的设计仅为实现基础的互连功能,而非系统级的流量管理,这一管理工作则由芯粒之间的网络子系统承担 —— 这一系统层的架构与互联网类似,却是针对芯片内 / 封装内的性能需求做了专项优化。
多租户推理平台面临着独特的流量管理挑战。为兼顾成本与功耗效率,所有流量都通过一个公共网络进行管理,这与现代电子系统的设计逻辑一致。但 CPU 控制单元、高带宽内存与人工智能加速器之间的 AI 业务流量具有极强的突发性:部分流量突发且需要高带宽支撑,部分流量对延迟极为敏感,还有部分流量(尤其是控制类数据,如有效信号、就绪信号、信用值等)是保障系统持续运行的关键。
这类突发性流量会抢占总线带宽,虽非永久性占用,却会持续至整个事务处理完成。而人工智能处理的大规模并行特性,进一步加剧了问题:某个计算步骤必须等所需数据全部到位后才能启动,否则只能陷入停滞。当平台同时运行多项推理任务时,此类停滞现象极易频繁发生,推理进程会陷入空闲,直至数据全部就绪才能进入下一阶段。
至此,看似一切都在情理之中:流量增加,单任务推理的性能就会下降。但令人意外的是,系统性能并非平稳衰减。当各推理任务间的流量竞争加剧时,就像城市交通的早高峰,进程停滞会不断累积,达到临界点后,系统性能会出现断崖式下跌,整体利用率可能从 80% 骤降至 45%。
有人会问,为何不直接提升网络带宽?遗憾的是,仅靠提升带宽远远不够。在突发性流量和同步停滞的双重影响下,用于保障各推理任务公平性的关键控制信息,会被不断挤压,最终导致任务间的公平性彻底丧失。有效的多租户管理,需要的不仅是更高的带宽,更重要的是实现性能的可预测性。
弥合性能差距的解决之道
高性能的人工智能加速器、CPU 子系统、高带宽内存和 UCIe 接口,是打造芯粒架构 AI 产品的必要条件,却并非充分条件。这类产品还必须搭建一套专属的流量管理网络,以应对多租户 AI 推理的独特挑战 —— 这些需求,远非 “尽力而为” 的普通网络所能满足。我们必须重新设计互连架构,让 AI 工作负载的性能具备可预测性。
Arteris公司产品管理与营销副总裁安迪・奈廷格尔,分享了实现性能可预测性的几项核心要求:
网络必须支持不同租户的流量隔离,确保单个推理任务不会阻塞其他任务;
系统负载增加时,吞吐效率自然下降,但必须实现平稳衰减;
即便在高负载下,也必须保障缓存一致性;
高负载下的系统行为需具备确定性,这样才能保障服务等级协议的兑现。
基于能实现上述保障的网络知识产权核,设计人员就能打造出适配目标应用场景的网络架构。
超大型数据中心无法基于不可预测的性能制定定价模型。如果芯粒间的互连架构并非为多租户 AI 推理设计,企业要想兑现服务等级协议,就只能增加服务器部署数量和供电容量。显然,更优的解决方案是,采用专为 AI 场景设计了网络架构的系统,让已规划部署的服务器和供电资源发挥稳定的效用。
本文开篇曾提及系统安全性,如今芯粒架构因诸多优势,在汽车系统中得到了广泛应用。在汽车领域,功耗的可预测性固然重要,但安全层面的性能可预测性更为关键。在轿车、卡车等各类车辆中,系统响应的可预测性并非单纯的性能优化需求,而是产品认证的硬性指标,而前文所述的网络流量管理问题,在汽车系统中同样存在。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
