人工智能设计重塑数据管理

EDA/PCB 时间:2026-03-17来源:

人工智能正从工作流程、岗位设置和独特的数据管理挑战等方面,深刻影响着半导体设计领域。

核心要点

  1. 将人工智能融入芯片设计流程,正推动企业全面革新数据管理策略,实现从被动存储向主动、结构化、机器可读取系统的转型。

  2. 随着模型训练与推理工作负载持续增加,数据迁移、网络拥塞和能效问题已成为核心挑战,其重要性往往超越了原始算力本身。

  3. 电子设计自动化(EDA)领域专属且复杂的数据格式,加之公开数据资源有限,导致针对半导体设计的人工智能模型微调难度极大,在检索增强生成(RAG)和模型微调场景中,需依托大量的数据解析工作和专业领域知识,才能实现数据的有效利用。

  4. 人工智能正迫使半导体企业从根本上重新思考数据管理模式,将其从一项被动的存储工作,转变为一门主动的工程学科。

工程团队首先必须将分散的日志文件和设计成果整合至机器可读取的数据湖,通过元数据和本体论为其补充信息,并在各类工具间搭建稳定的数据流管道。为实现这一目标,团队会借助智能辅助工具、检索增强生成技术和微调模型,而所有操作都需在严格的安全规范和本地部署的约束下完成。随着数据量的持续增长,企业不仅需要增设电子设计自动化数据管理员这一新岗位,还需对数据结构和数据质量进行持续投入。

无论工程团队采用检索增强生成技术、训练模型还是对数据进行微调,若数据仅处于闲置状态,便毫无实际价值。企业需要从不同的服务器集群、设计工具和项目中收集历史及现有数据,再按项目、流程阶段和团队归属完成数据的清洗与整理。此外,还需对代码、文本、图像、时间序列和二进制等各类格式的数据进行解析与分块处理。

这一系列需求推动团队采用中心化数据湖和向量化数据库,取代临时的文件共享方式,数据管理的核心也逐渐转向机器可读取性和数据检索效率。这也解释了为何如今人工智能设计领域的数管工作热度飙升 —— 而就在一年前,行业的关注重点还停留在可利用的人工智能工具类型上。

是德科技电子设计自动化事业部知识产权与数据管理业务总经理西蒙兰斯表示:“彼时企业们提出的问题是,‘为了融入并利用人工智能,我们需要在方法论或设计流程上做出哪些调整?’他们也在思考如何训练人工智能模型。如今我看到,企业们已经从单纯的思考转向实际落地,过程中却遭遇了诸多挑战:数据安全如何保障?算力是否充足?人工智能计算的能耗难题该如何解决?人们如今也开始逐渐了解人工智能幻觉现象及其成因,希望找到缓解或减少该问题的方法。当下行业的关注重点大量集中在数据安全上,相较于研发语言模型或研究模型训练方法,数据编排的优先级已大幅提升。很多企业曾想一步到位,但如果基础工作做不好,后续处处都会碰壁 —— 如今不少企业正陷入这样的困境,某种程度上甚至陷入了停滞。这并非单一问题,而是会引发一系列连锁反应。”

业内其他人士也持相同观点。西门子电子设计自动化事业部生成式人工智能产品群经理尼兰詹西塔普雷称:“分析人工智能设计对数据管理的影响,主要需区分两个维度:一是训练新的人工智能模型、大语言模型或微调现有模型,这是第一类场景;二是采用检索增强生成技术,这类场景无需训练或微调模型,却仍能利用企业已有数据。而对半导体设计而言,还有尤为重要的第三个维度 —— 前两类场景中普遍存在的数据格式问题。通常来说,ChatGPT-5、谷歌双子星等大语言模型在文本处理、代码编写和图像生成等多模态任务上表现出色,这是因为它们基于互联网海量的同类格式知识完成了训练。但在电子设计自动化领域,尽管也涉及代码、文本和部分图像,情况却截然不同:我们的代码具有高度专有性,还存在 SPRF 这类专属语言,部分电子设计自动化工具甚至有自己的语法规则,且这些内容均未公开,即便是 GPT-5 或最新的模型,也无法掌握这类信息,这成为一大难题。此外,部分电子设计自动化数据的格式并非机器可读取,即便包含图像和表格,也绝非汽车、自然风光这类普通图像,而是极为复杂的电路图。无论是原理图还是可视化电路图,当前的人工智能模型都难以准确理解其中的设计逻辑。”

这一现状直接影响到模型微调和检索增强生成这两大核心场景。

西塔普雷指出:“在模型微调方面,现有模型缺乏电子设计自动化相关数据支撑,因此它们或许能出色编写 Python 代码、解答光刻技术的通用问题,却无法深入理解电路的底层设计逻辑。另一大问题是,模型微调需要海量数据,而大量芯片设计数据并不掌握在电子设计自动化厂商手中,而是由客户持有,晶圆代工厂也不会将这类数据公开。这就形成了一个尴尬的局面:若要对当前最先进的模型进行微调,企业既要解决电子设计自动化文件格式带来的数据解析难题,又要面对公开数据资源不足的问题。而在检索增强生成场景中,举个例子,当你使用 GPT-5 时,若在一款设计规则检查工具中打开了某个设计方案,想要弄清设计中的问题,或是通过日志文件排查错误,这类场景下的数管工作,相较于前两者会更易操作、流程也更简洁。”

工程团队主要通过两种方式应对上述问题。西塔普雷解释道:“第一种是为全量数据配备智能辅助工具,实现与检索增强生成技术的结合。企业会提出需求:‘请为我们提供人工智能模型,以及配套的基础设施,包括检索增强生成数据流管道、便捷的图形用户界面,让我们能够便捷地进行问题查询等操作。’本质上,这就是电子设计自动化领域的 ChatGPT。”

他还提到,部分企业希望拥有自研的微调人工智能模型,因此会寻求相关技术支持:“这些企业会说,‘我们的数据分布在各个节点,能否协助我们搭建微调或训练管道,实现对不同设计方案的 SPICE 仿真?如此一来,每次完成仿真后,我们就能通过日志文件或仿真文件获取耗时、网表规模、错误类型等信息,再搭建一个能理解这些数据的本地人工智能 / 机器学习模型。’针对这类客户的特定设计需求,该模型可实现精准预测:例如运行某一网表将耗时多久、占用多少内存,或是基于现有数据预估设计的功耗、性能、面积(PPA)指标。”

目前,电子设计自动化工具厂商已向用户开放了相关技术。用户会先搭建自有数据湖,将标准操作流程、操作手册、设计方案等各类信息尽可能地进行中心化整合,并处理为机器可读取格式;随后可提出需求,将这些数据迁移至电子设计自动化厂商的人工智能服务基础设施中。整个过程中,数据始终保持本地部署且完全物理隔离,在保障数据安全的同时,也能精准匹配用户的实际业务需求。

换言之,人工智能芯片与系统设计正推动数据管理实现转型:从孤立的、基于文件的结果存储,升级为云原生的大数据基础设施。这一新型基础设施可承载跨物理场的只读存储器(ROM)和大型物理模型,减少高成本的数据迁移操作,并最终将设计阶段和运行阶段的数据整合至统一的、可扩展的系统中。

已有企业将大数据技术应用于芯片设计,搭建了专属的数据基础设施。2015 年被安世科收购、如今成为新思科技旗下 Seascape 数据库的吉尔设计解决方案公司,就是其中的代表。新思科技产品营销总监马克斯温宁表示:“我们对多款工具进行了重写,使其能基于 Seascape 基础设施运行;借助 MapReduce 等大数据技术,部分工具已实现原生云部署。在电子设计自动化领域,传统模式是先开发数据库或工具,再思考‘如何将其部署至云端’,而吉尔设计解决方案公司创始人约翰李则反其道而行之 —— 秉持云原生优先的理念,再让算法适配云端环境。例如,你可以让一款工具定位电压降位置,让另一款工具获取电流数据,再要求两款工具完成数据叠加。当两款工具均基于 Seascape 运行时,就能通过 MapReduce 方法完成数据排序、关联与叠加,实现传统系统无法做到的海量数据融合与联合分析。”

工程数据具备极高价值,但直至近期,其管理仍面临高风险、低规范的问题。芯片智能体公司首席执行官威廉王表示:“寄存器传输级代码(RTL)、设计规格、波形图、日志文件和工程变更指令(ECO)历史记录等数据,具有高度的敏感性,且分布零散、难以审计。当前的行业瓶颈并非模型质量,而是数据质量 —— 无论模型规模多大,错误的上下文信息都会导致智能体输出无效结果。这意味着,数据的安全性和溯源性比规模更重要。用户关注的并非大数据本身,而是数据的来源、访问权限和处理模型。”

为解决数据质量、安全和溯源问题,威廉王指出,嵌入工作流程的数管治理模式已落地并取得良好效果 —— 数据管理必须融入工程工作流程,而非独立于外部平台。“鉴于设计规格、寄存器传输级模块、波形图等每一项设计成果都需要明确归属、溯源路径和访问权限,数据的溯源性和访问控制必须成为默认配置。如今也可通过智能体实现数据的中介访问,由智能体自动执行访问权限管控,明确不同主体的查看范围和安全使用边界。”

这一切的实现,都依赖于对数据进行有效组织的能力,而随着数据量的持续增长,这一工作的难度也不断加大。弗劳恩霍夫应用固体物理研究所 / 电子与系统工程研究所研究员马丁诺伊曼 - 基平表示:“如今谈及人工智能,我们必须摒弃‘单靠大数据就能解决问题’的观念,大数据的热潮已开始消退,单纯收集海量数据不再是制胜法宝。我们真正需要的是可解析数据—— 即描述清晰、关联紧密、置于正确上下文环境中的数据。多数企业的问题并非数据不足,而是数据被孤立在各个‘信息孤岛’中:质量数据仅质量保证团队可见,生产数据仅生产部门可接触,文档资料仅工程团队能访问,诸如此类。这些孤岛数据本身具备价值,但真正的潜力在于将其关联整合,从整体视角看待生产系统 —— 唯有如此,才能搭建起真正的企业系统知识库。”

对于生成式人工智能在内的优质人工智能解决方案而言,仅仅 “拥有数据” 远远不够。诺伊曼 - 基平称:“必须精准掌握数据的实际含义,为数据添加语义描述、构建本体论体系,并建立统一的数据语言。这也是我们研究知识图谱、在现有系统之上搭建智能数据层的原因。企业当前的数据管理系统可作为良好基础,但需要通过语义层实现跨数据源的信息关联。一旦完成这一搭建,就能在其基础上开发更强大的人工智能应用,包括智能体系统。因此,人工智能时代的数管工作并非一个独立议题,而是发展人工智能的先决条件。若不在数据的描述、结构化和关联整合上投入精力,企业的人工智能应用将始终局限于狭隘的、局部的优化;而若将数据视为全系统数字孪生的一部分,就能实现对整个业务流程的优化,而非仅针对单个环节。这正是我眼中人工智能在工业领域的真正长期价值所在。”

岗位新需求:电子设计自动化数据管理员

几年前,英伟达首席执行官黄仁勋曾预言,未来工程师将成为人工智能智能体的管理者。与此相契合,电子设计自动化数据管理员这一岗位的需求正持续增长,其核心职责是确保数据格式标准化、搭配规范的元数据、存储于指定目录、配置合理的访问权限等。

西门子的西塔普雷表示:“我们需要为特定项目匹配精准的数据,搭配规范的元数据和合理的访问控制,建立清晰的信息关联,以及基于本体论的知识图谱以明确数据溯源。这一岗位的重要性与日俱增,尽管它处于设计流程的后端,看似并非核心岗位,实则是奠定行业发展基础的关键岗位。企业需要专人负责这项工作,并进行大量投入。从企业级人工智能的视角来看 —— 不仅是电子设计自动化领域,而是全行业 —— 都需要持续加大对数据管理结构化的投入,因为若忽视这一点,最终只会陷入‘垃圾进,垃圾出’的困境。”

企业的数据往往高度分散,规模较大的企业或有并购、被并购经历的企业,这一问题更为突出。是德科技的兰斯称:“这些企业的数据分散在各类数据管理系统中,部分团队甚至未使用专业数管系统,而是借助康 fluence、SharePoint 文件服务器等工具,导致数据缺乏索引、编目和版本控制。企业内部其他部门则可能使用完全不同的系统,数据存储在另一处。当企业内遍布这些孤立的数据碎片时,问题便接踵而至:若继续放任数据分散,人工智能应用将面临延迟问题,数据也可能出现重复存储的情况。而数据质量、存储位置、可访问性,以及快速获取、读取、利用、编排数据并推进后续任务的算力和系统能力,都会引发人工智能幻觉现象,这一系列问题还会产生连锁反应。事实上,数据查找困难和数据质量低下,是诸多问题的根源。过去,企业常说:‘我们知道各处都有数据,却没有数据工程师来做数据整理工作。’这是最大的挑战 —— 彼时行业内甚至没有对应的岗位设置。而如今,企业不仅需要增设相关岗位,还需组建数据治理团队,负责制定数据结构化方案、明确数据存储位置、确立数据的单一可信来源、搭建数据访问和加密的安全体系,防止数据泄露,同时明确数据的运行硬件环境。”

过去,大量数据管理工作和数据系统都运行在通用服务器或工作站上。但要真正发挥模型训练、推理和工作流编排的价值,数据必须部署在高性能计算机上,才能实现数据的快速访问、处理和回写,并及时获取运算结果。兰斯表示:“底层还存在信息技术和基础设施的问题,而这些问题在过去并未凸显。如今,随着行业高度关注模型的研发与管理,企业才意识到,他们甚至无法推进后续工作 —— 因为必须先完成数据整理,优化数据存储、算力资源和数据安全体系。即便打好了这些基础,企业还将面临确立数据单一可信来源的新挑战。此外,如何为设计流程中从未有过的数据类型进行补充,也是一大难题。过去,设计流程中仅有测试数据、设计数据、验证数据、文档和规格说明,从未留存模型文件和测试结果,这些数据通常会被直接丢弃,仿真运行记录也不例外。但如今,仿真运行记录需要为机器学习提供支撑,这就导致数据量进一步激增,而企业现有的信息技术服务器,原本并未针对海量数据存储进行配置。”

向新型数据管理思维转型,还带来了独特的组织架构挑战。兰斯称:“过去,我们的合作对象主要是工程师、架构师、计算机辅助设计团队和工程管理人员,而如今,信息技术团队、计算机辅助设计团队、安全工程师和安全专家都成为了核心合作方。我们甚至发现,面对大型客户和大型机构时,他们还会让法务团队介入,评估特定数据的风险、制定数据分类标准,确保受出口管制的信息,不会在机器学习模型的训练过程中被利用,尤其是当模型需要部署至特定地区时。这些工作过去由不同团队在后台独立完成,且并非时间敏感型任务,但如今都需要进行专业评估。参与整体解决方案评估的人员范围大幅扩大,这无疑让工作变得更为复杂。”

 


关键词: 人工智能 模型训练 是德科技 西门子EDA 新思科技

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版