人工智能开始简化可编程逻辑的设计流程

智能计算 时间:2026-02-27来源:

人工智能正逐步切入可编程逻辑的设计与管理领域,凭借技术优势简化并加速设计流程中的多个关键环节。

尽管现场可编程门阵列(FPGA)和数字信号处理器(DSP)的效率仍不及专用硬连线芯片,但在生命科学、人工智能处理、汽车电子以及 5G/6G 芯片等需求快速迭代的市场中,二者仍具备不可替代的价值。现场可编程特性不仅能适配新协议、新标准的升级迭代,支持硬件架构的灵活修改,还能像一块 “空白画布”,灵活承载各类工作负载。

英特尔Altera事业部业务管理集团负责人文卡特亚达瓦利表示:“芯片外围配有可编程的输入输出环,可对接各类输入输出接口,并将其转换为相应信号,进而在芯片架构内构建出支持后处理的、面向特定工作负载的处理引擎。”

然而,FPGA、嵌入式 FPGA(eFPGA)和 DSP 的设计工作兼具复杂性与高耗时性。阿泰里斯公司产品管理与营销副总裁安迪奈廷格尔指出:“FPGA 的应用潜力远不止于原型验证,在特定功能场景中本可实现更广泛的落地,比如在缓解内存和输入输出瓶颈方面,FPGA 堪称理想之选。但 FPGA 的编程工作依旧难度颇高,完成一项同类任务,为 FPGA 编程需要掌握寄存器传输级(RTL)设计技能,而面向 GPU 的软件编程则无此要求。”

尽管 FPGA 工程师已对比特流的输入输出方式进行了优化,但仍需配套专属的软件栈对其进行管理。巴亚系统公司首席商务官南丹纳扬帕利表示:“赛灵思(现归属AMD(Xilinx))、Altera等企业在其 FPGA 架构基础上,搭建了核心中央处理器(CPU)集群,进一步提升了可编程性。这些企业正试图解决各类编程难题,但要开发一套能同时适配 GPU、CPU 和 FPGA 的通用方案,难度极大。适配的软件栈种类越多,技术迭代的速度就越难提升。”

当前,可编程逻辑的全流程管理均依托软件抽象层实现。亚达瓦利称:“可编程性由顶层的软件层管控。针对 FPGA,我们已推出业内领先的设计工具,可对工作负载进行综合、布局和封装,以最优的功耗、面积指标,为用户匹配最适合的 FPGA 芯片方案。这套工具链已成为企业最核心的竞争壁垒,这也是鲜有企业能突破技术瓶颈、实现落地的原因。芯片硬件的制造门槛并非高不可攀,但开发一套能实现高效适配的复杂软件栈却难度极大,而软件栈的复杂程度,取决于企业想要覆盖的应用范围和实现的可编程类型。”

图 1:FPGA 人工智能开发流程 来源:英特尔Altera

(流程说明:1. 模型转换 —— 将 PyTorch、TensorFlow、Keras、ONNX、KALDI 等框架的预训练模型,通过 OpenVINO 模型优化器转换为.bin、.xml 格式的中间数据表示;2. 优化部署 —— 借助 FPGA 人工智能套件、Prime 设计软件完成优化与部署;3.IP 生成 —— 最终生成 FPGA 可用的中间知识产权核,参与人员涵盖人工智能开发工程师、FPGA 开发工程师、系统集成工程师)

展望未来,智能代理人工智能有望进一步加速 FPGA 的设计流程,尽管它未必能直接协助用户完成产品端的 FPGA 编程工作。亚达瓦利表示:“我们对未来的人工智能应用机遇充满期待,借助这项技术,工程师无需成为 FPGA 或专用集成电路(ASIC)设计领域的顶尖专家。智能代理可将各类设计编码转化为通用的标准化编码,工程师只需通过语音、图表、电路图等任意方式输入设计信息,智能代理经过多轮迭代优化,就能输出最终的设计代码。这是我们追求的理想状态,目前智能代理人工智能尚未实现这一目标,但这一发展机遇正吸引更多从业者参与到平台的创新中来。”

人工智能带来的新挑战

无论是首次接触 FPGA 的用户,还是熟悉 FPGA 设计并尝试融入人工智能技术的资深开发者,都面临着新的挑战。AMD(Xilinx)自适应与嵌入式产品营销高级经理罗布鲍尔表示:“随着高级综合等技术的发展,FPGA 的编程难度已有所降低,目前已有多款工具能将算法代码或 C 语言代码转化为寄存器传输级代码。从工具流角度来看,我们推出的 Vitis AI 等工具,已能实现 PyTorch 模型到人工智能引擎的无缝对接,这一能力至关重要,能帮助用户快速将人工智能模型落地到硬件芯片中,相关技术的落地难度已显著降低。”

不过,鲍尔表示目前基于人工智能的寄存器传输级代码生成辅助工具仍较为稀缺。“但在将人工智能工作负载落地到芯片的环节,技术已取得长足进步。我们明确了需要支持的模型类型,随后对编译器、量化器等工具进行优化,实现了人工智能模型向芯片的高效落地。”

也有企业已实现借助智能代理生成寄存器传输级代码。ChipAgents 公司创始人兼首席执行官威廉王表示:“针对 FPGA 这类可编程器件,原生人工智能编译器和智能代理能从高级语言代码或自然语言中推导出设计意图,自动生成寄存器传输级代码或高级综合代码,并对工作负载的映射、流水线设计和时序收敛进行自动优化。编译器正逐步向自适应流水线架构演进,能根据模型架构和算子的变化,对计算核心、内存布局、并行度和任务调度进行实时优化。”

在片上系统(SoC)中集成独立或嵌入式 FPGA 并非难事,但要让其与人工智能技术协同工作,仍需专业的技术知识。西门子 EDA 项目总监拉塞尔克莱因表示:“下游客户正面临这样的挑战:原本纯软件的开发工作,如今需要涉及 FPGA 中的硬件设计,这一转变让不少开发者望而生畏。如今行业内普遍存在这样的需求:手中已有成熟的算法,需要落地到 FPGA 中,但团队中缺乏资深的硬件设计工程师,能否借助工具将 C 语言函数直接转化为 FPGA 可执行的代码?传统的高级综合技术主要用于加速设计流程,而我们目前正尝试实现有限的 Python 语言支持,将其编译后落地到 FPGA 架构中。尽管 FPGA 的传统设计语言为 Verilog 或 VHDL,但更高级的设计方法正在涌现,这些方法将更贴合软件开发工程师的使用习惯,助力其将算法快速落地到 FPGA 中,充分发挥 FPGA 在功耗和性能方面的优势。”

另一种解决方案是提升编译器的智能水平,为其赋予更多的智能特性。克莱因表示:“这样一来,工程师在为 FPGA 编程时,就能减少对硬件设计知识的依赖。但目前行业尚未实现这一目标,AMD(Xilinx)没有,该领域的所有企业都未能推出这样的产品 —— 让软件开发工程师无需专业知识,仅通过编译器就能直接输出可用的设计结果。这项工作仍需要工程师掌握一定的硬件设计和数据流知识,并非软件开发工程师无法学习这些知识,相反,他们完全有能力掌握。软件开发工程师可以接触并学习这类技术,通过一定的培训,将原本运行在 CPU 上的算法迁移到可编程逻辑中。从长远来看,这将成为编程工作的延伸,工程师只需思考:‘编写完程序后,是编译到 CPU 上运行,还是 GPU,亦或是 FPGA 架构中?’这是行业的长期发展愿景,目前该领域的所有参与者都在朝着这一方向稳步推进。”

FPGA 设计的一大挑战,是针对特定工作负载实现功耗、性能和延迟的最优平衡优化。鲍尔表示:“这三者的平衡始终是设计的核心,尤其是在嵌入式领域,成本优化同样是重中之重。开发者可以在笔记本电脑上运行人工智能模型,但这样的方案无法满足边缘系统对性能的严苛要求。”

图 2:可编程逻辑与处理器的预处理耗时对比(绿色代表低延迟、确定性延迟,红色代表高延迟、非确定性延迟) 来源:AMD(Xilinx)

(左侧:基于处理器的方案 —— 传感器→固定输入输出接口→硬件图像信号处理器→外部内存→处理器(CPU/GPU)→面向特定任务的预处理→推理加速器,未针对特定任务优化,执行时间长;

右侧:基于可编程逻辑的方案 —— 传感器→可编程逻辑输入输出接口→硬件图像信号处理器→可编程逻辑→标准图像预处理 + 面向特定任务的预处理→推理加速器,电路针对特定任务定制,执行时间更短)

人工智能模型的部署、测试和功能验证工作,需要开发者经历一定的学习过程。鲍尔表示:“技术迭代的速度如此之快,当下使用和验证的模型可能很快就会被淘汰,一年后或许就会出现性能更优的模型,因此开发者需要具备快速适配新模型的能力。针对不同的研发难题,开发者面临的技术挑战也各不相同。”

工作负载迁移与可编程性在人工智能模型中的作用

巴亚系统的纳扬帕利表示,如果设计工程师明确知晓要运行的人工智能模型,就能设计出一款效率极高的人工智能加速器来完成相应任务。“但人工智能模型处于持续的迭代变化中,因此硬件需要具备一定的可编程性。此外,工程师还需要根据加速器的架构,搭建相应的软件抽象层,让开发者无需每次都重新学习新的开发方法。”

由于未来的技术发展存在不确定性,硬件具备一定的可编程性至关重要。纳扬帕利称:“以英伟达的产品为例,其核心仍是一款搭载加速模块的 GPU,具备高度的可编程性,而 CUDA 编程框架正是其成功的关键。能否在保证可编程性的同时实现高效优化,是企业能否取得成功的核心因素。”

随着行业格局的持续演变,这些考量凸显了 FPGA 和人工智能系统设计中,可编程性、效率和适应性三者之间的动态关联。尽管优化仍是设计的核心关注点,但人工智能模型的迭代速度已开始趋于平稳。

ChipAgents 公司研究主管张克勋表示:“四五前,当业内人士为机器学习或人工智能工作负载开发编译器时,都对智能编译器的发展前景充满期待,希望能打造出一款优秀的编译器,将任意架构的人工智能模型转化为高效的中间表示。但如今,针对人工智能模型的智能编译器研发投入已大幅减少,因为人工智能领域最核心、占比最大的工作负载,已不再是开发各类不同的模型架构并逐一测试。正是在那个阶段,行业对编译器的需求达到顶峰,因为需要借助编译器加速各类新颖、多样的模型架构的落地。”

当前人工智能领域最核心的工作负载之一,是基于变换器架构的矩阵乘法运算,该架构也是大语言模型的底层核心。张克勋表示:“至少对于大语言模型而言,硬件无需具备过高的可编程性,因为这类模型仅需处理一种类型的工作负载。”

设计工程师对编程语言的选择,也会影响硬件的运行效率。弗劳恩霍夫应用集成系统工程研究所高效电子学部门负责人安迪海尼希表示:“这是一个普遍存在的问题,若使用 Python 等高级编程语言编写代码,硬件的功耗效率必然会有所损失,其功耗表现远不如使用嵌入式 C 语言或 C++ 语言编写的代码。”

由此可见,高级编程语言虽能降低编程难度,却可能导致功耗效率的损失。海尼希指出:“从这一角度来看,软硬件协同设计无疑是实现能耗大幅优化的最佳途径,但目前这一理念尚未得到广泛落地,因为要解决相关问题,需要更高层次的抽象设计。”

FPGA 设计的技术发展

FPGA 设计的一大挑战,是开发出灵活性足够高的工具,以适配各类差异显著的应用场景。Altera的亚达瓦利表示,这一问题已得到部分解决 —— 目前行业已推出易用的集成化软件流,能让人工智能开发工程师、FPGA 工程师以及嵌入式 / 片上系统开发工程师在统一的设计环境中开展协作。

FPGA 的分析工作也正变得更加简便。亚达瓦利称:“新一代的功耗和热分析工具的精度已大幅提升,能为设计工程师提供智能优化建议,助力其在整个设计和电路板布局过程中,更好地管控能耗与热约束。”

尽管 FPGA 本质上属于数字器件,但其分析工作却需要达到极高的模拟精度,与内存、互补金属氧化物半导体(CMOS)和图像传感器的分析要求相近。新思科技产品营销总监马克斯温嫩表示:“FPGA 虽为纯数字器件,但对其熔丝工作原理、电阻及各类组件的分析,可基于其重复的架构特征,对单个单元进行深度分析后再推及整体,而这一分析过程涉及大量的模拟领域知识。尤其是在高速工作场景下,电源传输、信号完整性等分析工作,均包含模拟分析的相关内容。这类含模拟分析环节的器件的一大问题,是分析对象的规模通常极为庞大,而传统的模拟设计对象规模较小,模拟设计工具也主要针对小规模设计开发。”

斯温嫩表示,新一代的云原生工具和更完善的基础设施,让 FPGA 设计工程师得以首次对完整的设计方案进行全细节的深度分析。

DSP 的设计与部署

FPGA 并非唯一的可编程硬件选择,也并非唯一受人工智能技术挑战的器件。尽管人工智能让 DSP 的设计工作变得更加简便,但现实世界传感器产生的模拟信息持续增加,也让 DSP 的设计复杂度不断攀升。

楷登电子产品管理与营销高级总监、计算机视觉 / 人工智能产品负责人阿莫尔博卡尔表示:“机器学习技术可依据模拟仿真数据自动调优 DSP 算法,助力数模混合协同设计,这不仅能缩短设计周期,还能帮助工程师在模拟精度与 DSP 复杂度之间找到最佳平衡点。”

这种复杂度的提升,正推动设计团队改变数模设计的协作模式。博卡尔指出:“过去,数字设计和模拟设计是两个相互独立的领域,而如今,二者需要深度协同、紧密配合。”

功耗与面积的权衡,也成为设计工作的核心关注点。博卡尔解释道:“模拟模块的效率较高,但难以实现规模化扩展;而基于 DSP 的解决方案虽能提升性能,却会带来更高的功耗和芯片面积成本。设计工程师需要在二者之间找到平衡:是选择高分辨率的模数转换器(ADC)以简化 DSP 的工作,还是选择低分辨率的 ADC,让 DSP 承担更多的信号处理工作?”

在边缘人工智能的部署过程中,开发者需要明确区分:哪些工作负载运行在传统 DSP 上,哪些运行在面向低功耗嵌入式设备机器学习优化的向量扩展架构上(如安谋国际的 Helium 架构)。英飞凌科技物联网、计算与无线业务部高级副总裁史蒂文泰托西安举例道:“以智能运动手表为例,绝大部分的音频处理工作由传统 DSP 完成,而相当一部分的信号预处理工作,则由安谋国际 Cortex M55 微控制器中搭载 Helium 向量扩展架构的 DSP 完成。这款 DSP 的应用场景与音频处理 DSP 截然不同,其主要承担信号的前后滤波工作。”

这一设计难题同样存在于汽车电子领域。英飞凌连接安全系统事业部总裁兼首席执行官托马斯罗斯特克表示:“人工智能无法直接解决芯片的分割和系统架构设计问题,它只是为工程师提供了一种全新的数据分析方式,并基于分析结果给出反馈建议。”

内存编译器

随着人工智能模型的复杂度持续提升,且行业逐步向 “软件优先” 的设计方法论转型,市场对高级内存编译器的需求也与日俱增。

新思科技嵌入式内存知识产权首席产品经理达里尔塞策表示:“如今,芯片架构师在最终确定硬件规格前,会优先考虑软件算法的需求,尤其是机器学习和数据分析相关的算法需求。能否快速调整内存架构,以适配各类独特的人工智能算法,已成为芯片设计企业的核心差异化竞争优势。这一行业趋势推动了市场对高灵活性、可扩展嵌入式内存解决方案的内存编译器的需求。随着人工智能应用复杂度的提升,系统对专用数据结构的依赖度不断增加,导致大规模数据集的访问变得更加频繁和并行化,内存编译器也需新增相应特性,以满足这些由软件驱动的全新需求。”

塞策补充道,新一代的内存编译器支持高度灵活的配置、超低电压工作模式,以及丰富的多端口选项,让芯片设计工程师能够确信,其选用的内存知识产权核可快速适配算法需求的变化。“面向人工智能优化的内存特性包括:转置数据流、针对稀疏数据应用的功耗优化设计,以及与乘加运算单元(MAC)的节距匹配。”

结语

在各类应用对处理器提出复杂的组合需求以实现特定目标的背景下,FPGA、DSP 及其他可编程芯片在半导体领域的地位愈发重要。随着人工智能模型和应用的持续演进,各类新型工具正不断降低设计工程师和客户利用可编程性的技术门槛。

Altera的亚达瓦利表示:“FPGA 的设计落地,由技术架构师决定 —— 哪些功能模块适合采用 FPGA 技术实现,哪些适合 GPU、ASIC 或其他芯片。这一前期的研讨环节,我们称之为架构设计阶段。工程师会对设计方案进行深入分析和模块分割,明确数据平面的哪些部分需要通过 FPGA 实现,控制平面的哪些部分需要采用相应的设计方案。最重要的是,在平衡市场需求和未来行业演进趋势的同时,这一实现方案的总拥有成本是否具备合理性。”

FPGA 的核心竞争优势体现在四个方面:输入输出的灵活性、确定性低延迟、安全特性的灵活性,以及对各类非可控工作负载的整合能力。亚达瓦利称:“工程师可从平台层面,对风险架构进行合理设计,实现工作负载的高效编排与仲裁。最终,这些设计还需与顶层的软件层实现良好的适配,这才是优秀的软硬件协同设计。”

关键词: 人工智能 可编程逻辑 设计流程 Altera AMD FPGA DSP

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版