智东西(公众号:zhidxcom)
编译 | 刘煜
编辑 | 陈骏达

智东西6月23日消息,当地时间6月21日,英伟达发文称,其新一代Rubin系列AI基础设施冷却液体工作温度上限可达45摄氏度,高于人们泡澡时的水温(一般在38到40摄氏度之间)。该公司形容这一设计是数据中心发展史上能效提升幅度最大的技术突破之一

传统数据中心普遍依靠冷水机组产出低温冷水,配合精密空调输送冷空气完成整机散热。但Rubin平台反而采用高温冷却液完成散热,它是全球首款实现100%液冷的AI算力平台。其芯片、所有网络组件全部由闭环管路内的液体独立散热,整机无任何散热风扇。

英伟达亮出高温液冷黑科技!数据中心一年省2700万

▲Rubin平台集成液冷基础设施(图源:英伟达官网)

英伟达透露,这一看似反常的设计,能使数据中心能够大幅降低制冷能耗。不止如此,一座50兆瓦的超大规模数据中心,若改用这一液冷基础设施,理论上每年可节省超400万美元(约合人民币2712.3万元)制冷相关水电开支。

该公司称,由于英伟达Rubin平台集成了100%液冷基础设施,所有云服务商与数据中心运营商在搭建Rubin平台配套算力集群时,均会同步切换这套散热方案,产业链配套厂商也同步跟进。

Rubin平台的这套液冷方案完整收录于英伟达DSX AI工厂参考设计,该参考设计包含全套规范,用于指导整套AI工厂基础设施的设计、搭建与运维。不止如此,DSX AI工厂参考设计也是英伟达为打造全球最高产出的AI工厂奠定的技术蓝图之一。

英伟达数据中心冷却与基础设施总监阿里・海达里(Ali Heydari)称:“英伟达DSX AI工厂参考设计可实现0耗水。我们大幅削减了电力消耗,几乎彻底消除水资源损耗。整套方案采用干冷器闭环架构,无蒸发式水冷;仅少数气候区域全年约1%的时段才需要启动冷水机组。”

尽管这套高温全液冷体系在运营环节实现了节能节水效果,但外界对AI数据中心的多重担忧并未完全消解。

据科技媒体The Verge报道,该方案仍未解决机房建设阶段产生的资源消耗,以及超大型算力设施所需的电力供给压力

同时,英伟达发布的官方博文也未提及使用Rubin平台的建设成本。不过该公司发言人向美国科技博客Gizmodo透露,相关价格将由数据中心设备供应商制定。至少在短期内多数头部AI实验室大概率仍会继续使用传统高耗水型数据中心

一、节水幅度最高达100%,可减少机械制冷设备运行时长

随着AI训练集群规模持续扩大,散热正成为影响数据中心建设成本和运营效率的重要因素。冷却系统长期以来一直是数据中心最大的能耗来源之一。英伟达称,冷却系统在历史上最高可占数据中心总电力消耗的40%

因此制冷优化成了降低运营成本、削减能源需求的核心突破口。

长期以来,行业一直存在一个认知误区:机房温度越低,能效越高。几十年前,只要数据中心环境温度偏高,运维人员便会判定设备存在故障,久而久之行业普遍将“低温”与“高效率”直接画上等号。

但在全液冷架构下,情况已经发生变化。

实际上,芯片可承受的工作温度远高于大众固有认知。硅基处理器运行时会产生巨大内热,在Rubin平台中,液体进入机架时温度可达到45摄氏度,流出时约为55摄氏度。这意味着液体在流经芯片过程中吸收了大量热量

如下图所示,黄色管路是高温冷却液输送管道,红橙渐变光柱展示该服务器内部芯片的发热热量,浅蓝色透明区域则代表冷板液冷散热模块。图中右下角面板标注高温液体冷却(Hot Liquid Cooling)工况:冷却液进水温度45℃,吸热后出水温度升至55℃,设备运行状态显示正常(Normal)。

英伟达亮出高温液冷黑科技!数据中心一年省2700万

▲Rubin平台配套的45℃高温全液冷散热3D原理示意图(图源:英伟达官网)

尽管冷却液温度远高于传统认知中的“安全温度”,但处理器性能并不会因此下降。英伟达称,这是因为冷板(Cold Plate)直接贴附在芯片表面,能够将芯片工作温度始终控制在验证范围内。

与此同时,整个服务器已经不再依赖机房冷空气。即使外部环境温度较高,服务器也能正常工作,因为散热任务全部由液体循环系统承担。

行业测算显示,冷水机组供水温度每提升1摄氏度制冷能耗成本可降低约4%。企业规模化部署Rubin平台后,节能效益将持续叠加。

在气候适宜地区,英伟达这套45℃液冷架构可在完全停用冷水机组的情况下运行,仅依靠干冷器散热。传统冷却塔制冷系统每兆瓦年耗水量约260万加仑(约9842吨),而该方案可将耗水量降至近乎为0节水幅度最高可达100%

其背后原理在于,传统风冷数据中心需要输送大量低温空气带走IT设备热量,高温天气下制冷设备能耗极高。

英伟达45℃液冷方案则直接在芯片端捕获热量,通过高温液体管路输送热量,全年大部分时段可依靠室外干冷器高效排热,可减少机械制冷设备运行时长与机房耗水量。

机房环境温度无需刻意调低,夏季室外高温空气也完全适配,因为服务器内部无任何元器件依赖冷空气散热,全部散热工作由冷却液完成;液体在闭环管路内循环复用,也无需持续消耗新水冷却芯片。

施耐德电气旗下高端冷却子公司Motivair已和英伟达合作近十年,该公司总裁兼CEO理查德・惠特莫尔(Richard Whitmore)称:“地理位置与系统设计匹配得当的前提下,整套设施无需任何制冷机组,仅依靠室外大型散热盘管,利用自然空气即可完成全部散热,能效表现极其出色。”

如他所言,液冷系统的效果与地理环境密切相关。例如苏格兰高地与美国亚利桑那州凤凰城的数据中心面临完全不同的气候条件,因此能够达到的节能水平也存在差异。

不过即便如此,英伟达认为,45摄氏度液冷方案已经让数据中心距离“无冷水机组运行”更进一步。在许多地区,冷水机组可能仅需在一年中的极少数高温天气启动。

二、算力部署密度大幅提升,废热可回收供暖

Rubin平台的这套液冷设计方案除了能节水以外,还一定程度上解决了传统数据中心进行散热时出现的噪音问题

传统数据中心使用散热风扇散热时会让机房噪音达到85分贝及以上,工作人员进入部分机房甚至需要佩戴护耳设备。同时,传统机房还需要精心规划冷热通道,以确保冷空气能够流经各类元器件。

但Rubin平台取消了这些设计。

该平台使用由75%水和25%丙二醇组成的冷却液,冷却液流经紧贴处理器的冷板时,可以直接在热源处带走热量。冷却液的工作温度上限达45摄氏度,多数气候环境下,机房管路无需启动机械冷水机组与高噪音风扇即可向外排热。

英伟达亮出高温液冷黑科技!数据中心一年省2700万

▲左侧是大型不锈钢承压罐,黑色机柜为VERTIV换热设备;右侧是不锈钢回水管道(图源:英伟达官网)

这一变化还带来了更高的机柜密度。

以往液冷服务器均为混合散热架构:GPU、CPU配备冷板,其余元器件仍依靠风冷,通过散热鳍片向流动空气散发热量。

而英伟达热设计团队重新设计了Rubin平台服务器内部散热结构,把过去依赖空气散热的组件改为液冷方案,并采用单进单出液路设计优化冷却液流动路径。

从外观上看,Rubin服务器前面板已不再需要空气冷却服务器常见的散热孔。与此同时,原本占用6U空间的系统如今可压缩至2U空间内在相同机房面积下部署更多算力设备

惠特莫尔称:“单芯片功耗突破临界值后,液冷将成为唯一可行方案。”

英伟达亮出高温液冷黑科技!数据中心一年省2700万

▲Rubin全液冷AI服务器机柜整机(图左)机柜顶部液冷管路近距离特写(图右)(图源:英伟达官网)

除了上述优点,英伟达全液冷架构还带来了余热利用的新可能。

该公司称,AI工厂算力运行产生的废热可二次利用,能为周边商业楼宇、居民住宅供暖,提高整体能源利用效率。

随着AI训练和推理需求持续增长,数据中心建设规模仍在快速扩张。如果散热效率无法同步提升,AI基础设施的能源消耗将随算力增长同步攀升。英伟达此次推动的100%液冷架构,正是其降低AI基础设施运行成本和资源消耗的重要方案之一。

结语:算力散热难题凸显,高温全液冷革新传统制冷思路

当下,AI算力需求持续扩张,数据中心的水电消耗与散热压力已成为行业无法回避的现实议题。

英伟达Rubin全液冷架构通过提升冷却液工作温度、闭环干冷循环的方式,打破了传统行业长期追求机房低温的固有思路。

但这套方案的落地效果受地域气候制约明显,前期建设成本、全行业规模化普及进度仍是待观察的变量,同时它仅优化了制冷环节的资源消耗,无法覆盖数据中心建造、上游电力供给等全链条环境相关问题。

未来,兼顾算力供给、资源消耗与落地成本的散热体系,仍需要芯片厂商、机房服务商、能源配套产业链多方协同适配。未来,高温全液冷或许会成为重要技术路线之一,但并非解决AI数据中心能耗、耗水问题的唯一答案。

来源:英伟达官网、The Verge、Gizmodo