AI数据中心液冷渗透率,预计2025年超过30%
本文由半导体产业纵横(ID:ICVIEWS)综合
液冷技术将从早期试点迈向规模化导入。
根据TrendForce最新液冷产业研究,随着NVIDIA GB200 NVL72机柜式服务器于2025年放量出货,云端业者加速升级AI数据中心架构,促使液冷技术从早期试点迈向规模化导入,预估其在AI数据中心的渗透率将从2024年14%,大幅提升至2025年33%,并于未来数年持续成长。
AI服务器采用的GPU和ASIC芯片功耗大幅提升,以NVIDIA GB200/GB300 NVL72系统为例,单柜热设计功耗(TDP)高达130kW-140kW,远超过传统气冷系统的处理极限,遂率先导入液对气(Liquid-to-Air, L2A)冷却技术。
受限于现行多数数据中心的建筑结构与水循环设施,短期内L2A将成为主流过渡型散热方案。随着新一代数据中心自2025年起陆续完工,加上AI芯片功耗与系统密度不断升级,预期液对液(Liquid-to-Liquid, L2L)架构将于2027年起加速普及,提供更高效率与稳定的热管理能力,逐步取代现行L2A技术,成为AI机房的主流散热方案。
目前北美四大CSP持续加码AI基础建设,于当地和欧洲、亚洲启动新一波数据中心扩建,同步建置液冷架构兼容设施,如Google(谷歌)和AWS(亚马逊云科技)已在荷兰、德国、爱尔兰等地启用具备液冷布线能力的模块化建筑,Microsoft(微软)于美国中西部、亚洲多处进行液冷试点部署,计划于2025年起全面以液冷系统作为标配架构。
随着液冷渗透率持续攀升,带动冷却模块、热交换系统与外围零部件的需求扩张。作为接触式热交换核心元件的冷水板(Cold Plate),主要供应商包含Cooler Master(酷冷至尊)、AVC(奇鋐科技)、BOYD与Auras(双鸿科技),除BOYD外的三家业者已在东南亚地区扩建液冷产能,以应对美系CSP客户的高强度需求。
流体分配单元(CDU)为液冷循环系统中负责热能转移与冷却液分配的关键模块,依部署方式分为In-row(行间式)和Sidecar(侧柜式)两大类。Sidecar CDU目前是市场主流,Delta(台达电子)为领导厂商。Vertiv(维谛技术)和BOYD为In-row CDU主力供应商,其产品因散热能力更强,适用于高密度AI机柜部署。
快接头(QD)则是液冷系统中连接冷却流体管路的关键元件,其气密性、耐压性与可靠性是散热架构运作的安全稳定性关键。目前NVIDIA GB200项目由国际大厂主导,包括CPC、Parker Hannifin(派克汉尼汾)、Danfoss(丹佛斯)和Staubli(史陶比尔),以既有认证体系与高阶应用经验取得先机。
英特尔成立通用快接头互插互换联盟
8月20日,英特尔宣布通用快接头互插互换联盟成立,标志着液冷生态系统互操作性迈出关键性一步。该联盟首批认证合作伙伴包括英维克、丹佛斯、立敏达科技、蓝科电气和正北连接五家企业。
此次联盟成立旨在构建液冷行业统一标准。通过制定通用快接头规范,各厂商产品将实现互插互换功能。这一举措有望解决液冷系统兼容性问题,推动整个行业规模化发展。
英维克Coolinside全链条液冷解决方案已通过英特尔验证,具备从冷板到分水器的完整产品线。据悉,英维克已累计完成超500兆瓦液冷项目交付。丹佛斯等其他认证合作伙伴同样在各自专业领域具备技术实力。立敏达科技专注于连接器技术,蓝科电气在电气设备方面经验丰富,正北连接则在快速连接解决方案领域有所建树。
联盟成立后,各认证合作伙伴将围绕标准制定展开深度协作。通过技术交流与产品验证,进一步完善液冷系统互操作性规范。相关标准预计将在未来逐步推广至整个液冷产业链。
液冷技术在数据中心应用中重要性日益凸显。随着AI算力需求持续增长,液冷系统能够有效处理高功率密度服务器产生的热量,成为数据中心降低能耗的重要手段。业界预期,通用快接头标准的建立将降低液冷系统部署成本。用户可根据需求选择不同厂商产品进行组合,而无需担心兼容性问题。这种开放式生态模式有助于加速液冷技术在更多场景中的应用推广。
2026年全球AI液冷市场规模有望达到86亿美元
中金公司研报认为,AI大模型更新迭代以及应用落地驱动算力需求提升,芯片功耗与算力密度持续攀升,液冷凭借散热效率、部署密度等优势,正加速替代风冷逐步成为主流方案。预计2026年全球AI液冷市场规模有望达到86亿美元,实现市场规模的快速提升。
芯片层面,大算力需求推动芯片及服务器功率上行。以英伟达为代表的主流芯片厂商推出的芯片功耗快速提高,其中,GB300 Superchip最大TDP可达到1400W,而2017年推出的V100及2020年推出的A100最大TDP分别为300及400W。同时,国产AI芯片的功耗水平也逐步向300W甚至500W的水平提升。服务器层面,AI服务器通常采用CPU+GPU/ASIC等异构架构,使用大量高功率高性能芯片,整机功率大幅提升。以英伟达DGX B200服务器为例,其搭载8颗NVIDIA Blackwell GPU以更大限度地提高AI吞吐量,最大系统功耗可达到14.3kW,较通用服务器的功耗水平明显提升。
中金认为,在AI大模型的推动下,AI服务器需求有望维持高增,带动算力功率密度提升。根据TrendForce,2024年AI服务器出货量年增46%,预计2025年全球AI服务器规模将达到约210万台,年增约24.5%,AI服务器出货量占服务器市场比重由2024年的13%进一步提升至15%。
英伟达GPU的功耗水平逐步提升
单机柜功率密度快速提升,对系统散热能力提出更高的挑战。按照标准机柜(42U)放置4台DGX B200 AI服务器计算,对应单机柜功率超过50kW。根据Vertiv预测,2029年单个AI GPU机柜的功率将超过1MW,单个AI POD(假设单AIPOD为18台机柜,其中8台计算机柜,10台通信机柜)的功率将超过500kW,行业平均机柜功率密度预计将从当前15~25kw提升至超50kW。
功率密度演进
高温环境影响芯片等电子元器件的使用寿命,服务器散热系统具备高效能杠杆。高温环境会影响芯片等电子元器件的使用寿命,高温激发高能载流子会增大晶体管被击穿短路的概率,同时,晶体管性能会随着温度发生变化,高温可能导致部分电路由于性能改变无法正常工作,此外,高温提高电迁移影响导线工作寿命。根据NIISA发布的《绿色节能液冷数据中心》,电容温度每升高10℃,平均电子元器件的寿命会降低一半,(10℃法则),约55%的电子元器件故障是温度导致的。中金认为,服务器液冷散热系统具备高效能杠杆,以较低的成本占比保障数据中心高价值AI芯片的可靠性,在芯片及服务器功耗走高的背景下,渗透率有望持续提升。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
2、西藏:一场关于自然、信仰与自我的终极邀约,西藏信仰是什么意思
3、金塞拉:安塞尔米诺对租借加盟多特持开放态度,金塞缪尔图片