人工智能系统亟待跨越的下一道难关-电子产品世界手机版

人工智能系统亟待跨越的下一道难关

EDA/PCB 时间：2026-03-12来源：

人工智能的发展之路并非一帆风顺。媒体与华尔街对人工智能行业情绪的任何细微变化，都会表现出极端且剧烈的反应。狄更斯早已预见这般光景：“那是最美好的时代，那是最糟糕的时代；那是智慧的年头，那是愚昧的年头；那是信仰的时期，那是怀疑的时期；那是光明的季节，那是黑暗的季节；那是希望的春天，那是失望的冬天。” 在这些喧嚣的头条背后，人工智能推理的规模化发展正面临一个关键难题：芯片的理论峰值性能与系统厂商能实际保障的性能之间，差距正不断扩大。这一差距对算力的功耗需求和系统安全性，都产生了重大影响。

这一性能差距究竟从何而来？

大型半导体系统会大量采用预先设计的子系统，这些子系统要么是企业为前代产品自研的，要么是从外部采购的。如今数据中心和汽车领域普遍采用的芯粒架构设计，更是如此。行业头部企业能提供各类顶尖的芯粒子系统，包括服务器 CPU 子系统、人工智能加速器子系统、高带宽内存子系统等，而其他芯粒则由半导体系统主设计商自主研发。芯粒之间的连接通过行业标准的 UCIe 接口实现。

由这些组件搭建的系统，每个组件都经过独立认证、具备高性能，且通过行业标准接口互连，按理说理应实现接近最优的吞吐效率，可事实并非如此。究其原因，是半导体产品的商业属性决定了，这类造价高昂的大型产品必须同时处理多项推理任务。单颗芯粒的设计初衷本就包含多任务处理能力，但没有任何一颗芯粒负责管控芯粒之间的通信流量性能。UCIe 接口的设计仅为实现基础的互连功能，而非系统级的流量管理，这一管理工作则由芯粒之间的网络子系统承担 —— 这一系统层的架构与互联网类似，却是针对芯片内 / 封装内的性能需求做了专项优化。

多租户推理平台面临着独特的流量管理挑战。为兼顾成本与功耗效率，所有流量都通过一个公共网络进行管理，这与现代电子系统的设计逻辑一致。但 CPU 控制单元、高带宽内存与人工智能加速器之间的 AI 业务流量具有极强的突发性：部分流量突发且需要高带宽支撑，部分流量对延迟极为敏感，还有部分流量（尤其是控制类数据，如有效信号、就绪信号、信用值等）是保障系统持续运行的关键。

这类突发性流量会抢占总线带宽，虽非永久性占用，却会持续至整个事务处理完成。而人工智能处理的大规模并行特性，进一步加剧了问题：某个计算步骤必须等所需数据全部到位后才能启动，否则只能陷入停滞。当平台同时运行多项推理任务时，此类停滞现象极易频繁发生，推理进程会陷入空闲，直至数据全部就绪才能进入下一阶段。

至此，看似一切都在情理之中：流量增加，单任务推理的性能就会下降。但令人意外的是，系统性能并非平稳衰减。当各推理任务间的流量竞争加剧时，就像城市交通的早高峰，进程停滞会不断累积，达到临界点后，系统性能会出现断崖式下跌，整体利用率可能从 80% 骤降至 45%。

有人会问，为何不直接提升网络带宽？遗憾的是，仅靠提升带宽远远不够。在突发性流量和同步停滞的双重影响下，用于保障各推理任务公平性的关键控制信息，会被不断挤压，最终导致任务间的公平性彻底丧失。有效的多租户管理，需要的不仅是更高的带宽，更重要的是实现性能的可预测性。

弥合性能差距的解决之道

高性能的人工智能加速器、CPU 子系统、高带宽内存和 UCIe 接口，是打造芯粒架构 AI 产品的必要条件，却并非充分条件。这类产品还必须搭建一套专属的流量管理网络，以应对多租户 AI 推理的独特挑战 —— 这些需求，远非 “尽力而为” 的普通网络所能满足。我们必须重新设计互连架构，让 AI 工作负载的性能具备可预测性。

Arteris公司产品管理与营销副总裁安迪・奈廷格尔，分享了实现性能可预测性的几项核心要求：

网络必须支持不同租户的流量隔离，确保单个推理任务不会阻塞其他任务；
系统负载增加时，吞吐效率自然下降，但必须实现平稳衰减；
即便在高负载下，也必须保障缓存一致性；
高负载下的系统行为需具备确定性，这样才能保障服务等级协议的兑现。

基于能实现上述保障的网络知识产权核，设计人员就能打造出适配目标应用场景的网络架构。

超大型数据中心无法基于不可预测的性能制定定价模型。如果芯粒间的互连架构并非为多租户 AI 推理设计，企业要想兑现服务等级协议，就只能增加服务器部署数量和供电容量。显然，更优的解决方案是，采用专为 AI 场景设计了网络架构的系统，让已规划部署的服务器和供电资源发挥稳定的效用。

本文开篇曾提及系统安全性，如今芯粒架构因诸多优势，在汽车系统中得到了广泛应用。在汽车领域，功耗的可预测性固然重要，但安全层面的性能可预测性更为关键。在轿车、卡车等各类车辆中，系统响应的可预测性并非单纯的性能优化需求，而是产品认证的硬性指标，而前文所述的网络流量管理问题，在汽车系统中同样存在。

关键词：人工智能 IP Arteris

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

人工智能系统亟待跨越的下一道难关

相关文章