关于液冷技术的11个误区

EDA/PCB 时间:2025-12-23来源:

随着50至100兆瓦的AI工厂迅速涌现,以支持庞大的AI工作负载,液冷已成为全球几乎所有数据中心最关键的需求之一。这些设施已经面临控制热量和占地面积的挑战。现在他们必须想办法引入下一代2800瓦及以上的AI超级芯片。

毫无疑问,处理这些新型AI芯片热量的唯一方法是使用液冷技术。因此,预计该市场将从2024年的41亿美元激增至2031年的194亿美元。

无论你是芯片制造商、服务器制造商、OEM、超大规模开发者,还是数据中心或超大规模运营商,他们都知道自己需要这些资源。但他们并不总是了解不同液冷选项的具体情况,以及如何在保持成本低廉和可持续性的同时最大化效益。

本文旨在通过梳理液冷技术中最常见的11个误区,来揭开所有这些问题的神秘面纱。

1. 浸入式和直达芯片液冷基本上是一样的。

这是最大的误区之一——而且是错误的。所有液冷技术均属于浸入式或直达芯片式(见图1)。直达芯片冷却通常被称为“冷板”冷却,因为它使用放置在GPU或CPU顶部的冷板。而浸没冷却则是将服务器、芯片和其他设备浸入大型、沉重的液体罐中。

0275848b-aed4-48c5-a915-17cf6069e66d.png

图1. 液冷类别包括浸入式和直达芯片式,每种选项均提供单相或两相。

2. 液冷在服务器内部使用水。

这句话是正确的,但前提是你使用单相直达芯片液冷。冷板中使用水或乙二醇混合物作为冷却液。水保持液态,这种方法带走热量的能力取决于水流。需要冷却的芯片功率越高,所需的水流越大。这需要投资更大的管道、水桶和连接器,以及耗电高的泵来持续输送水流。

相比之下,浸入式和两相直达芯片的水冷都不使用水来带走CPU或GPU的热量(它们连接到设施水环,将蒸汽冷凝回液态或冷却液体)。单相浸没使用油性流体,而两相浸入使用介质流体。然而,在这两种情况下,服务器和IT设备都浸泡在装有这种液体的重型罐中。

两相直达芯片技术使用放置在GPU顶部的紧凑型冷板。冷板内部的热传导流体将部件的热量带走,并被封存于冷板内。这种液体从不与芯片或其他服务器组件接触,这与浸没冷却不同(见图2)。

1766459828521948.png

图2. 左图展示了浸没式冷却,服务器被放置在充满液体的大罐中。右图展示了两相直达芯片冷板直接安装在GPU之上。

3. 如果我想要AI性能,就必须抛弃可持续性。

只要选择可持续的液冷解决方案,情况绝非如此。为了确保你在为可持续发展而建,你需要提出以下问题:

4. 介电液的使用对环境有害。

过去,全氟烷基和多氟烷基物质(PFAS)被认为是危险的,但某些PFAS选项现在被认为是安全的。然而,处理任何PFAS时,最佳做法是在封闭系统中使用,比如闭环。

如果你把这些液体存放在需要在维护时打开的储罐里,总会有一些液体排出到大气中。询问液冷制造商,他们的液体是否需要更换,是否会暴露在外部空气中,更重要的是,他们未来如何朝向“零PFAS”迈进。

5. GPU产生的热量无法重复利用。

没有理由不能利用AIGPU产生的热量来加热附近的房间或建筑物,尤其是在各种设施都非常接近的城市中。液冷解决方案如两相直达芯片技术,不仅允许设施重复利用这些热能,还能将其转化为可重复利用的能源。

6. 冷板液冷会产生热点。

虽然在冷板内的泳池沸腾一直是液冷的圣杯,但直到现在,还没有人能找到防止沸腾气泡产生热点的方法。为解决这个问题,ZutaCore 开发了一种由鳍片和芯材组成的结构,采用多孔材料,类似位于鳍之间的海绵(见图3)。

3685b75a-e6f8-4a21-a67d-c1cade57e6ff.png

图3. 通过在冷板内部使用吸芯和散片来消除热点。

液体浸泡在海绵内,气泡发生在灯芯、液体和散热片之间。这种方法防止气泡在表面形成,并保持均匀冷却。

7. 我只用风冷就能应付。

传统的空气冷却因驱动风扇和冷却器所需的巨大能量以及为它们提供宝贵的空间而被广泛认为已经过时。从风冷转向液冷的优势显著——这些优势随着每增加一瓦计算功率而累积。

例如,一个仅使用空气冷却的数据中心,每瓦计算需要1瓦的冷却。这意味着50%的电力只用于冷却系统!相比之下,通过先进的液冷技术,每瓦的冷却功率突然支持10瓦的计算。

8. 漏水不会造成损害。

超大规模企业不愿冒险,而AI服务器接近35万美元,使用水资源的风险很大。泄漏还可能显著延误或停止生产。

就在去年,Tweaktown报道称NVIDIA下一代GB200超级芯片即将发货,但随后发现AI服务器机柜内的液冷系统泄漏,导致延误。除了漏水,使用水还可能导致腐蚀和侵蚀。因此,由于生物生长,需要持续的过滤和水处理。

9. 液冷受限于芯片未来加热的温度(芯片最大功率)。

部分液冷选项确实存在限制,随着芯片工作功率提升,未来无法实现扩展。这就是为什么使用面向未来的方法,比如两相冷板中使用的池水煮沸法非常重要。冷板内部有一池热传导流体;当芯片产生热量时,液体开始沸腾,热量转化为蒸汽。

无论芯片功率如何,液体始终保持在恒定的沸点,确保热性能可预测。因此,这种冷却方法具有可扩展性,能够随着芯片越来越热的出现而冷却。就像在炉子上煮水一样,即使火力调高三倍也没关系,因为液体始终保持在沸点,避免了更换设备或更换基础设施的需求。

10. 液冷需要大量维护。

维护成本取决于液冷方式。例如,如果你使用大型重型罐体,需要叉车才能将服务器从罐中抬出,那么这显然会很昂贵。要确定持续的维护成本,重要的是要全面检查系统,识别任何可能出现故障的地方,如果有,如何修复。这些包括管道、泵、罐体以及更换液体的需求。

11. 如果我没有设施水循环,我就不能在设施中使用液冷。

虽然一些数据中心配备了设施水循环,但也可以部署没有水冷的水冷系统。这可以通过依赖环境空气而非设施水的液态回路将蒸汽冷凝回液态来实现。这种方法使得液冷基础设施能够独立于建筑现有的供水系统部署。

结论:液冷与可持续性

希望我上面提到的常见误区能帮助解释一些关于液冷的神秘感。现在是一个令人兴奋的时代,参与人工智能的发展速度远超任何人的想象。虽然确实经历了学习曲线,但行业现在可以清楚地看到一条继续聚焦可持续发展的路径,同时获得AI未来所需的计算能力。

关键词: 液冷技术 芯片热量

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版