数据中心提高电压以提高效率
当今 HPC 和 AI 数据中心中使用的电源架构即将发生重大变化,以提高能效。虽然芯片级的电压将保持不变,但通向这些芯片的电压将在更远的距离内保持较高。
这一变化对DC-DC转换器具有广泛的影响。现有架构将交流电带到每个机架上,将其转换为直流电,然后分两级将电压降至必要的芯片电压。新方法以为电动汽车 (EV) 市场制定的协议为蓝本,将交流转换转移到建筑物的边缘或一排机架的末端,并为该排中的所有机架提供比目前采用的更高的直流电压。其结果是电流更低、损耗更低、铜更少。
这一变化发生之际,数据中心正在努力应对不断增长的能源需求,而且看不到尽头。“人工智能、GPU和数据中心驱动的力量正在极大地改变人们处理事物的方式,”Ansys电子和半导体业务部总监Rich Goldman说,Ansys(现为新思科技的一部分)。“你已经看到人们将数据中心放置在靠近能源的地步。”
今天的数据中心电源设置将交流电分配到所有机架。每个机架底部的托盘包含一个电源单元 (PSU),可将交流电转换为标称 48 VDC。如有必要,一些系统在 54 VDC 下实施,以将电池充电至 48 V。
“电源被转换为直流电,经过多次转换以降低到高性能芯片的可用电压,”Amkor Technology 计算产品营销总监 John Dinh 说。
该 48 V 为所有上层服务器以及架顶式 (ToR) 交换机供电。在每块板上,电压分两级下降,驱动 MOS (DrMOS) 芯片将最终电压带到被供电的芯片。“第一级有一个电源模块,它们从 48 V 转换为 12 V,有时转换为 6 V,”Dinh 解释道。“第二阶段,他们将有一个额外的控制器和 DrMOS 芯片,将进一步转换为 1 V、3 V、0.8 V 或芯片所需的任何电压。”
由于不同的芯片可能有不同的电源电压要求,因此第二级需要多次复制。除了必要的电压外,DrMOS 芯片还必须提供足够的电流。每个电源线都有一个电流限制,因此可能需要并联多个电源线才能达到指定的电流。

图 1:当前高阶数据中心电源架构。交流电为每个机架底部的电源单元 (PSU) 供电,其中交流电转换为 48 VDC(标称值)。每个服务器或主板上都会发生进一步的电压降。资料来源:Bryon Moyer/Semiconductor Engineering
例如,NVIDIA 在其 Grace/Hopper 和 Grace/Blackwell 板上有许多此类芯片。“第二阶段使用了大量的 DrMOS 芯片,”Dinh 说。“GH200 使用 19 个 DrMOS 用于 Grace,56 个 DrMOS 用于 Hopper,而 GB200 使用 19 个 DrMOS 用于 Grace,130 个 DrMOS 用于 Blackwell。”
这说明了现有设置的挑战。“他们必须改变架构,”他说。“它不再只是在 GPU 周围填充更多的 DrMOS。这是不可持续的。
这在精神上类似于最近几代 DRAM 的变化,其中模块现在托管自己的 PMIC,这绝非偶然。“这个概念就像他们在数据中心所做的那样,”Rambus 内存接口芯片产品营销副总裁 John Eble 说。让我们向使用点(在本例中为存储器)提供更高的电压和更低的电流,然后让我们有一个电源管理 IC,它可以吸收这些电压,然后产生所有必要的电压。
1 不是第一个电压提升
数据中心的电源架构只有一个目的——获取交付的交流电源,并将尽可能多的电力输送到芯片和其他组件上。这谈到了电源效率,但这种效率是相对的。早期,数据中心机架使用 12 VDC,但随着机架功率增长到 15 kW 以上,该行业转向 48 V。
当时的原因与下一组拟议的更改相同。由于功率计算为 VI,因此对于给定的功率量,增加电压会导致电流成比例地减少。电流量对数据中心有几个影响。
首先,电流决定了连接电源所需的电线尺寸。今天的设置预计每个机架需要大约 200 公斤的铜来支持人工智能和其他计算密集型工作负载所需的巨大功率。通过降低电流,数据中心可以使用更少的铜布线,这是一项不小的投资。
第二个影响与给定电线中交流电线与直流电线的载流能力差异有关。集肤效应意味着对于交流电,大部分电流在电线表面附近移动,内部流动的电流较少。
“在系统层面,使用相同数量的交流铜,您可以使用直流电流提供更高的功率,”Dinh 说。仅此一项就可以通过现有电线提供更多电力。
但减少交流电量也可能意味着给定的电流可以在更小的电线中传播——整根电线,而不仅仅是外边缘。这也会导致更少的铜。
最后,导通损耗与电流成正比。这意味着减少电流可以减少损耗,从而提高效率。在尽可能多的布线中保持较高的电压意味着将电压降至尽可能靠近芯片的位置。这样可以节省电力,并保持较高的电源完整性。
2 新的数据中心电源配置
现在,拟议的电源架构将 PSU 移出到数据中心的外围,或者至少移动到一排机架末端的自己的机架(有时称为 sidecar 机架)中。
“下一代机架级计算引入了集中式电源架构,”Dinh 解释道。“Power 正在拥有自己的机架。它不再只是机架底部的托盘。在这种架构中,数千伏的交流电在数据中心外围转换为直流电。输出的电压为 800 VDC,将输送到大厅或一排机架。
这移除了现在为每个机架供电的空调。相反,机架接收到高直流电压,然后在负载附近的板上分多个阶段将其降至芯片所需的电压。

图2:新的数据中心电源架构。交流电转换为 800 VDC,要么在建筑物边缘附近,要么在机架末端。然后,高压会下降到它供电的芯片附近,从而减少沿途的损耗。资料来源:Bryon Moyer/Semiconductor Engineering
这种设置称为高压直流电 (HVDC),并利用了电动汽车充电器所做的一些工作。“由于电动汽车充电技术,这种设置更便宜并且可以部署,”Dinh 指出。“数据中心向高压直流输电的过渡恰好与电动汽车充电基础设施的增长相交。”
800 V 并不是神圣不可侵犯的,有些人认为 400 V 是一个更容易实现的数字。但 NVIDIA 已经公开表示,其 Kyber 机架架构将于 2027 年上市,将采用 800 V 设置和边车机架来容纳 PSU 和冷却基础设施。
当然,这将导致每个建筑物或每行一次交流到直流转换,而不是每个机架一次。在现有设置中,如果一个 PSU 出现故障,它只会关闭一个机架。如果新的 PSU 出现故障,它会关闭更多。“更少的组件可能会造成单点故障。为了解决这个问题,他们必须提供冗余,“Dinh 补充道。
3 功率 FET 和电源完整性
今天的安排意味着从 PSU 降低电压的半导体必须能够支持超过 50 V 的电压。这与即将推出的 800 V 电压相去甚远,后者将需要高压半导体。这应该会增加对 SiC 晶体管的需求,SiC 晶体管可以比硅和 GaN 更好地处理高电压。实际上,现在针对电动汽车的一些设计应该具有适应性,从而简化过渡。
“我们看到对功率器件的要求激增,”Ansys产品营销总监Marc Swinnen说。“功率 FET 无处不在。需要切换的功率如此之大,以至于需要一个功率 FET。
对于此类芯片,对电源完整性验证的需求变得更加强烈,因为设计参数的微小变化可能会产生很大的不同。
“有一些专门设计的特定工具可以非常详细地分析功率晶体管,”Swinnen 说。“他们使用 2D 网格划分,因为它们承载的功率太大,以至于电阻 RDSon,是最重要的参数。The RDSon必须非常准确地计算,并且您希望准确确定电压降的位置,这样就没有热点,过多的电压下降在拐角或其他地方并导致局部发热。这不是仅使用 RC 的传统电源完整性分析。
温度在这里起着重要作用,因为它可以激发正反馈循环。“功率通常是热能的代表,”Swinnen 继续说道。“当人们说,'我担心电力'时,他们真正担心的是它会变得太热。还有反馈,因为芯片产生的功率取决于其温度。因此,较热的芯片会消耗更多功率。当然,更大的功率意味着更热的芯片。这是先有鸡还是先有蛋的事情。
并非每个数据中心都出现考虑到目前正在运行的数据中心的数量,将它们全部转换为这种新架构是令人望而却步的。这既不切实际又没有必要。很少有工作负载需要这种架构提供的那种能力。相反,由于推断了未来 AI 工作负载预计需要的那种能力,它已成为一个问题。人工智能和高性能计算 (HPC) 以外的应用程序可以在当前基础设施上继续使用。
与此同时,供电基础设施(电气和机械)的制造商正在准备支持这种架构。NVIDIA 的承诺消除了一些风险,预计将在几年内安装。
(本文登于《EEPW》202511期)
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
