如何解决日益严重的供电问题
对于越来越多的设计来说,IR 压降变得越来越成问题,这表明供电网络 (PDN) 在需要时无法为设计的各个部分提供足够的电流。不幸的是,这个问题没有简单的解决方法。
过去,当电压高得多时,小的电压下降并不重要。同时,电线更粗,电阻更低。最后,开关速度较慢,产生的电流尖峰更小。所有这些都在最近的技术节点上变得更糟,结果是越来越多的设计在时序上出现问题。
“这曾经是一个二阶问题,”Ansys(现隶属于Synopsys)的产品营销经理Marc Swinnen说。“您需要通过非常细的电线快速、大电流尖峰,这些电线对任何压降的容差非常低。保证金一直是一条简单的出路,但保证金在空间方面非常昂贵,而且在性能上也很昂贵。
为了解决这个问题,需要更加关注供电网络的设计。“电网开发是分区后的第一步,”西门子数字工业软件产品管理高级总监 Joe Davis 说。“但关键是,在那个时候,在放置和路线之前,你不知道大门会去哪里,而且它们并不完全一样。”
因此,PDN 设计需要在所有细节都已知之前开始。“基本架构是在电池排周围形成一个电源环,然后这些排在边缘进入环,”Ansys的Swinnen解释道。“因为当你沿着一排电池向下移动时,功率会下降,所以每个电池都会消耗一些功率,因此电压会下降。在行的中间,你有最深的落差。为了支持电源电压,您可以在环上拉带子。您从环的顶部到环的底部拉一条带子,在它穿过的每一排处,您将一个过孔钉在本地电源轨上以支撑它。你有这个网格结构。电源带的数量,电源带之间的间距,你拥有的越多,提供的电压就越好。
如果电线具有更高的电阻,则存在次要问题。“红外压降的问题是热,”Empower Semiconductor客户应用工程总监Luca Vassalli说。“如果有电流流过红外线的电阻,它就会消耗电力。它产生电流平方的平方的功率。随着电流的增加,降低电阻很重要。使用当今的处理器,内核可拉动 1,000 安培。如果您在 1,000 微欧上有 100 安培,则损失了 100 瓦。100 瓦可能是处理器功率的 10%。
与所有事情一样,总是需要权衡。使供电线变粗会使其更难布线,这会影响面积。将设备推得更远可以为电线或较粗的电线提供更多空间,但会减少连接它们的可用区域。
有人尝试通过将电源线移至芯片背面来解决这个问题。“这个概念是将又大又粗的电力线移开,”西门子的戴维斯说。“这确实有帮助,但它会产生另一个问题。它不是时间,而是热。把电源线移开后,你可以装进更多的东西,而且东西可以更紧密地靠在一起。你可以更快地运行事情,但当这种情况发生时,它们会变得更热。电线的可靠性会因热量而呈指数级下降,因此温度越高,电阻越高,红外压降越大,可靠性越低。以更低的红外压降提供更大的电流之间存在竞争,但您将产生更多的热量,而必须消散这些热量。为了利用新伎俩,我制造了一个新问题。
分层问题
当芯片工程师专注于芯片上的走线时,该芯片可能位于系统内电路板上的封装内的中介层上,而主电源就位于此。这创造了一条漫长的道路,需要理解。“有很多方法可以在芯片层面验证这一点,但对于芯片/封装/电路板问题,我们看到了很多问题,”弗劳恩霍夫 IIS 自适应系统工程部高效电子部门负责人 Andy Heinig 说。“没有人能真正回答如何对芯片、封装、电路板进行供电验证的问题。这确实是一个悬而未决的问题。
目标是在需要的时间将能量转移到需要的地方,并在需要的时间以最小的损耗移动。“造成红外压降的是功率级和负载之间的距离,”Empower 的 Vassalli 说。“我们正在努力确保我们可以将功率级尽可能靠近处理器。一种方法是增加开关稳压器的带宽,这反过来又允许您使用更少的电容器。如果您将开关稳压器的带宽增加 10 倍,则所需的电容量会减少 10 倍。这会产生更多的空间。我们发现最好的折衷方案是将稳压器保持在封装外部,但尽可能靠近封装,因此位于 PCB 的背面。要真正实现封装内部的集成,还需要进行另一个级别的改进,但关于将集成稳压器 (IVR) 放入封装中有很多讨论。
在封装内,许多最大的设计都将包括一个中介层。“中介层更加轻松,”Swinnen 说。“它通常类似于 16 纳米或 35 纳米技术,但你拥有更大的功率。在中介层上,通过微凸块,你需要有电源,不仅是芯片,也许还有上面的芯片。它必须使用硅通孔 (TSV) 和这些微小凸块通过芯片馈电。必须通过这些微小的连接馈电数百瓦。它更复杂。这是不同的。有新的元素开始发挥作用。但同样的问题也适用。情况会变得更糟吗?这肯定更复杂。
中介层也开始表现得更像 PCB。“当你开始获得具有长走线的中介层时,Ls [电感] 可能会成为一个问题,”戴维斯说。“你可以产生共鸣。在 3D-IC 中,您开始遇到与电路板上传统封装相同的信号完整性问题,但您谈论的是比电线更短的东西、更短的走线,因此影响较小。但今天的中介层变得如此之大,当你查看代工厂的路线图和他们计划将数百个芯片组合在一起的系统时,L 和 C 的 [电容] 会产生重大影响,而 K [电导],以及一大堆其他因素。
多芯片组件对许多芯片制造商来说是新的,因此工程师可能不太熟悉这些挑战。“先进封装引入了非传统的供电路径,”Ansys首席产品经理Takeo Tomine说。“这包括 TSV、微凸块、混合键和中介层。这些都会增加电阻和电感,使电源完整性进一步复杂化。在 DDR PHY 中,早期分析可能会发现,将 I/O 驱动器放置在离主电源抽头太远的地方会导致在同时开关输出 (SSO) 事件期间出现过多的 IR 压降,从而促使修改布局以缩短电源路径。同样,在数百个 I/O 通道并发运行的 HBM 设计中,及早检测 PHY 或控制器区域中的局部 IR 压降可以指导分区策略,以隔离大电流域并提高电网粒度。
共同设计它们将是显而易见的答案。“作为工程师,我们解决所有问题的方式——使用边界条件,”戴维斯说。“从这个接口到这个接口,从这里到这里,我只能在这个骰子上掉这么多。我可以在这些边界条件下将其相加。它被划分和分配,以便每个部分都能获得其预算的一部分。如果你看看 HBM,它们正在将内存芯片堆叠成 8 和 12 高。每一个之间都有一个过孔,你必须从底部向顶部供电。红外压降,从电源引脚一直到顶部,是他们性能范围的很大一部分,因此他们必须像这样划分它。
当涉及安全性和可靠性时,这些问题会变得更大。“我们在汽车领域遇到了问题,因为功能安全要求完全不清楚,”弗劳恩霍夫的海尼格说。“你在功能方面的功能安全上花费了如此多的精力,然后我们在供电网络上有很多不确定性。我们有来自供电网络的单点故障。
汽车在这一领域面临着许多问题。“汽车行业开始进入先进节点,他们面临着一个问题,因为如果他们遵循所有代工规则,他们就无法设计出有竞争力的芯片,”戴维斯说。“没有解决方案空间,因此他们正在研究代工厂使用的电迁移规则的严格性。今天使用的规则是建立在布莱克方程组之上的,但这些方程忽略了它是一个网络的事实。它是一个供电网络。只有在少数几个地方,我只有一条路径可以向大门输送电力。如果我的一个部分的电阻略有增加,那么该电力将通过另一条途径传递。真正的基于物理的可靠性分析表明,布莱克方程组和当前模型不仅给出了悲观的结果,而且在许多情况下是完全错误的结果。
功能层次结构
除了芯片、封装和电路板的层次结构之外,还有一个影响供电网络设计的功能层次结构。这也会导致多个问题,例如平均电流需求、峰值需求以及随时间变化的需求。“我们并不完全确定,尤其是当我们必须考虑数百个用例时,我们对供电网络的要求是什么,”Heinig 说。“如果我们在最大限制下满足要求,我们就无法设计这样的网络。这是不可能的,我们必须处理普通病例。但没有人知道这些平均案例是否代表用例。
平均值通常不考虑功能。“在任何时间点,有些闸门正在切换,有些则不会。但你可以将其平均化,净净值,当你的电源必须为 1,000 个门供电时,它会看到平均电流消耗,“Swinnen 说。“你可以设计成平均消耗得到电力网络的良好支持。然后还有动态压降,即特定时间的特定栅极都一起切换,突然出现需要供电的局部尖峰。这是电流中瞬态的、与时间相关的峰值。
但并非所有这些都可能是问题。“幸运的是,峰值电流的定义通常非常狭窄,而且没有很多同时达到峰值的门,”戴维斯说。随着设计将更多的网络推向临界点,您的松弛度几乎为零。您必须检查平均值和峰值,并确保不仅查看该栅极上的红外压降,还查看其对时序的影响。一个门可能有 10% 的 IR 下降,根据大多数传统指标,这是违规的。但如果它处于一条远未危急的路径上,它可能就无关紧要了。
找到这些峰值可能很困难,因为并非所有峰值实际上都是可能的。“如果你有一个多核处理器系统,如果你假设它们都可以以最大速率运行,然后看看功耗,你离你真正能提供的东西还很远,”Heinig 说。“这是一个死用例,因为你永远不能以这种方式使用该系统。没有用例是所有内核都全速运行,并且无法提供能够提供 100% 负载的供电网络。
这造成了两难境地。“人们已经开始使用他们所谓的无向量分析,这是一种虚构的向量,”戴维斯说。“它说,'我不知道你要跑什么,所以让我们把这个假设的最坏情况放在一起。'但是当你有这么大的骰子时,你还要做什么?其他客户说,'我不相信这一点。我将选择一些我将要使用的向量。你如何科学地做到这一点?他们开发了似乎有效的流程,但它是否在探索了最糟糕的角落的意义上签字?祝你好运。
情况变得更糟。“这也是软件,”Heinig 说。“这里的问题是他们在开发阶段继续开发软件。您可能为他们一开始提供的特定配置文件设计了它,但随后他们更改了软件。您必须在硬件开发的同时进行软件开发。这意味着你需要一些假设,你说,'我们从这个用例开始,但由于潜在的软件变化,我们必须增加 20% 或 30% 的利润。但我们事先并不知道这一点。
模型和仿真
要执行任何类型的分析,都需要模型。“EMIR 中的所有内容都是一个近似游戏,因为最终,为了获得最准确的答案,我们正在对整个芯片进行完整的寄生效应电气模拟,”Davis 说。“这也许是整个过程中成本最高的一步。您必须近似该值才能进行早期分析。这些模型是根据它们在设计、架构和分区方面的历史构建的。
当您没有设计系统中的所有内容时,这无济于事。“如果芯片是一个黑匣子,那么芯片的供电网络就是一个黑匣子,”Heinig 说。“我们不知道我们必须如何对此进行建模。这是我们为芯片获得的一个非常抽象的模型,我们完全不清楚我们是否在封装模拟中做了正确的事情。我可以告诉你的是,我们肯定需要更准确的组件模型,特别是如果它们是黑匣子。我们还需要处于探索阶段的模型,以便我们可以进行早期预测或路线研究。
小芯片可能会有所帮助。“如果我以前已经制造过这个芯片,那么它可以被表征,我知道它在不同活动下的表现如何,”戴维斯说。“硬 IP 和小芯片是设计电力传输的好方法,因为一旦实施,您就可以对其进行表征。除此之外,还有一些可以改进的近似方法。一位统计建模之父说,所有模型都是错误的。有些是有用的。
早期分析可以省去很多麻烦。Ansys的Tomine表示:“早期分析在降低PDN相关风险方面发挥着关键作用,影响分区、平面规划和电网拓扑等架构决策。“这些避免了昂贵的后期重新设计。通过在布局最终确定之前尽早进行电源完整性检查,设计人员可以主动识别容易出现红外压降的区域,并相应地调整块放置、布线通道和去帽分配。
延迟发现的问题可能会代价高昂。“这一直是红外液滴分析的错误之一,”Swinnen 说。“修复它非常困难,因为当你检测到它并分析它时,你已经走得很远了,你的时间也得到了平衡,以至于你真的不想开始弄乱你的设计来修复红外压降。您需要在设计的早期、放置阶段进行良好的红外压降分析,这样您仍然可以轻松修改放置,将这些侵袭单元分散得更远,并解决需求问题。
模拟运行非常昂贵。“这种模拟是一种具有近似值的非线性 SPICE 模拟,”Davis 说。“寄生效应是近似值,其中 5% 用于签核是典型的。一切都是近似值,因此它是一个可以解决的问题。否则,你甚至无法做到这一点。您通常在一种温度和几种不同的场景下进行作。您识别热点,分析这些热点,然后迭代。你尽早这样做——尽可能早——因为最后为时已晚。如果你等到 DRC 清理、LVS 清理之后,你别无选择。您可以进行本地改道,或者您只需与铸造厂一起挥手。人们会为红外问题旋转芯片,偶尔会出现逃逸导致硅故障的情况。这些通常会识别一些没有人认为会发生的极端情况。
“对于现代最先进的芯片,我们正在考虑该模型中仅用于配电网络的 600 亿到 1000 亿个电气节点,”Swinnen 说。“你需要一个求解器,它可以快速求解一个 600 亿节点的电路,并对其进行巧妙的减少。传统上,客户会选择一个角,因为它需要足够长的时间,而且没有人清楚多个角对红外压降意味着什么。这是一个新兴领域。
设计的某些部分,例如模拟和高速 SerDes,是需要仔细设计的明显部分。“一些互连具有关键信号,我们必须非常小心地布线它们,”Heinig 说。“这不仅是压降,还有噪声。如果域之间存在耦合,这可能并不明显,我们从供应商那里得到的唯一指导是避免耦合。但这是不可能的。域之间允许的最大耦合是多少,以便我们满足噪声要求目标?
这也是设计技巧被利用的地方。“你试图增加电容,与其说是使用显式电容器,不如说是通过尽可能多地重叠电源和接地,”Swinnen 说。“电源线之间只有一层绝缘体层,形成一个电容器,一个寄生电容器。但这是寄生电容实际上是正值的一种情况。您尝试最大化 PDN 中电源对地的寄生电容,以提供这种电容去耦。
结论
如果没有强大的供电网络,现代设计将存在严重的红外压降问题。同时,设计中的更多路径变得至关重要,这意味着如果不进行大量分析,芯片将无法在目标频率下运行,或者它只是失败。
该行业尚未开发出满足所有签核需求的方法,同时还能够使用一致的模型和场景进行早期分析。为了满足这些需求,额外的投资即将到来,而这首先要追溯到基础物理学。以此为坚实的基础,更好的解决方案可能是可能的。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
