当前位置:AIGC资讯 > AIGC > 正文

为了应对AI热潮专家讨论了液体冷却策略

科学家预测,在未来几十年内全球温度可能会稳步上升,数据中心经理们不需要等那么久,一股热浪正因最新的GPU、CPU和AI应用而向他们袭来。

“AFCOM数据中心报告”的作者Bill Kleyman强调:“随着AI需求的增长,数据中心运营商必须调整其基础设施以适应高功率密度的服务器集群。”

一些芯片制造和液体冷却领域最聪明的专家聚到一起进行了讨论,可以预期的热量有多少,下一代芯片和AI如何在数据中心基础设施中驱动变革,以及如何与正确的电力策略配合部署新的液体冷却解决方案,以缓解强烈的热量。

Vertiv的全球高科技发展总监Greg Stover说:“变革已经来临,我们不能仅靠空气来抵抗热量。在未来几年内,大多数数据中心将从100%的空气冷却过渡到空气/液体冷却的混合模式。”

Mohammad Tradat 博士,Nvidia 数据中心机械工程经理,展示了一个图表,预测了微芯片热设计功率(TDP)的增长。每个处理器的瓦特数正处于从几百瓦增长到超过1000瓦的初期阶段。他提到了他的公司的一款新芯片,能在一个机架中提供138千瓦的功率。仅用空气冷却是无法保持这样的机架密度冷却的。

“自2020年以来,TDP一直在激增,”Tradat说。“我们需要通过加入液体来重新思考冷却路线图。”

他认为单相技术是有限的。另一方面,他补充说,两相制冷剂可以应用于每个机架200千瓦或更多的能力。

“从单相到两相液体冷却的转变将比从空气到单相液体冷却发生得更快,”Tradat说。

为应对热量改造现有数据中心

数据中心的设计能够计划新结构并以完整的液体冷却基础设施开始运营。大多数现有的数据中心没有这种奢侈。Tradat建议运营商根据现有设计和空间的限制引入尽可能多的液体。

这可能需要引入液体对空气(L2A)冷却分配单元(CDU),这些单元带来了液体冷却的好处,而无需全面实施设施水系统。CDU在最需要的地方提供局部液体冷却,并利用现有的空气冷却系统来散热机架或行。

“这项技术可以在大多数数据中心迅速部署,干扰最小,”Tradat说。“但一旦机架密度上升,数据中心经理需要开始考虑液体对液体CDU。”

他补充说,一个4U CDU可以提供100千瓦的冷却能力,但液体冷却行业需要为制冷剂和两相技术制定标准,以便其顺利进入主流市场。

你应该投资哪种液体冷却方法?

Intel的高级首席工程师兼热管理架构师 Dev Kulkarni 博士,介绍了四种主要的液体冷却方法,并对每种方法进行了简短的评述:

  • 单相直接芯片冷却——最成熟的液体技术,拥有众多供应商选项
  • 两相直接芯片冷却——冷却潜力更大,但供应商较少,成熟度较低
  • 单相浸没冷却——材料兼容性问题尚未解决,但许多供应商正在研究此技术
  • 两相浸没冷却——仍存在严重的流体、腐蚀和安全问题

Kulkarni 说:“你必须根据你的需求来实施这些不同的冷却解决方案。但重要的是要向前看两到三代。如果你全力以赴只做单相,你可能会发现在短时间内需要将一些基础设施转换为两相技术。”

他的建议是关注硅和AI硬件的发展路线图,并使你的公司和客户的需求与之对齐。同时,关注环境、社会和治理(ESG)目标以及你如何能够迅速扩展你的部署。

但他补充说,不要等到部署AI。他建议你找到一种方法立即引入它,同时你可以规划更大规模的部署。最后,他说要找到可以在AI、冷却、可扩展性和可持续性方面与你合作的伙伴。

灾难近在咫尺

Vertiv的热管理和数据中心副总裁Steve Madara向与会者介绍了一些液体冷却技术的现实情况。

他说:“如果直接导向芯片的流体停止流动超过一秒钟,高功率服务器就会宕机。可靠性需要达到极其关键的任务级别。”

他建议将导向芯片的冷却循环置于不间断电源(UPS)系统上,以确保即使电网断电也永不失电。Madara举了一个例子:如果电力丢失,数据中心需要15秒钟转换到发电机电力,冷却器可能需要一分钟才能再次启动并提供所需的冷却水平。在此期间,最新一代服务器的水温可能会上升高达20℉。

他说:“在液体冷却领域,正在发展一整套可靠性策略。”

他推荐L2A CDUs作为部署最简单的液体冷却技术。他说,这些可以立即进入现有的数据中心。

预测:更多的热量和更多的液体

那么,未来一段时间内数据中心的天气预报将是更多的热量和更密集的机架。这也意味着需要更多的液体冷却。

Stover表示:“目前我们的大部分询问都是关于为传统场所使用的液体对空气冷却,但是从芯片中带走热量只是一方面,你还需要将热量从建筑中带出去。”

这需要一个协调的推动力,以增加新的冷却技术,提高现有冷却和电力解决方案的效率,并达到更高水平的可持续性。

IDC的分析师Courtney Munroe表示:“数据中心提供商需要支持超出常规10-20千瓦/机架的密度范围,达到70千瓦/机架甚至200-300千瓦/机架,这将需要创新的冷却技术、热量散发以及使用可持续和可再生的能源来源。”

更新时间 2024-04-29