(原标题:AI芯片功耗狂飙,冷却让人头疼)
公众号记得加星标??,第一时间看推送不会错过。
来源:内容编译自tomshardware。
近年来,AI GPU 的功耗稳步上升,预计随着 AI 处理器集成更多计算能力和 HBM 芯片,功耗还将继续上升。我们一些业内人士表示,Nvidia 计划将其下一代 GPU 的热设计功耗 (TDP) 设定在 6,000 瓦至 9,000 瓦之间,但韩国领先的研究机构 KAIST 的专家认为,未来 10 年,AI GPU 的热设计功耗 (TDP) 将一路飙升至 15,360 瓦。因此,它们需要相当极端的冷却方法,包括浸入式冷却甚至嵌入式冷却。
直到最近,高性能风冷系统(包括铜散热器和高压风扇)足以冷却 Nvidia 的 H100 AI 处理器。然而,随着 Nvidia 的 Blackwell 将其散热功率提升至 1200W,Blackwell Ultra 又将其 TDP 提升至 1400W,液冷解决方案几乎成为必需。Rubin 的散热性能将进一步提升,TDP 将提升至 1800W;而 Rubin Ultra 的 GPU 芯片和 HBM 模块数量将翻倍,TDP 也将一路飙升至 3600W。韩国科学技术研究院 (KAIST)的研究人员认为,Nvidia 及其合作伙伴将在 Rubin Ultra 中使用直接芯片 (D2C) 液冷技术,但对于 Feynman,他们将不得不使用更强大的冷却技术。
韩国科学技术研究院 (KAIST) 的研究人员预测,AI GPU 模块(尤其是 Nvidia 的 Feynman)的功耗将达到 4,400W,而业内其他一些消息人士则认为,Nvidia 的 Feynman Ultra 的 TDP 将提升至 6,000W。如此极端的散热要求需要采用浸入式冷却技术,即将整个 GPU-HBM 模块浸入导热液中。此外,此类处理器及其 HBM 模块预计将通过热通孔 (TTV) 引入,TTV 是硅基板上专用于散热的垂直通道。这些 TTV 将与嵌入 HBM 模块基片中的热粘合层和温度传感器配对,以实现实时热监控和反馈控制。
预计到 2032 年,浸入式冷却将足够好,届时后 Feynman GPU 架构将把每个封装的 TDP 提高到 5,920W(后 Feynman)甚至 9000W(后 Feynman Ultra)。
需要注意的是,GPU 模块中的主要功耗是计算芯片。然而,随着后 Feynman 时代 HBM 堆栈数量增加到 16 个,并且 HBM6 的单堆栈功耗增加到 120W,内存的功耗将在 2000W 左右,约占整个模块功耗的三分之一。
韩国科学技术研究院 (KAIST) 的研究人员推测,到 2035 年,AI GPU 的功耗将增至约 15,360 瓦,这将需要为计算和内存芯片组配备嵌入式冷却结构。专家们提到了两项关键创新:将热量从热点横向转移到冷却接口的热传输线 (TTL),以及允许冷却液垂直流过 HBM 堆栈的流体硅通孔 (F-TSV)。这些技术直接集成到中介层和硅片中,以保持热稳定性。
到 2038 年,全集成散热解决方案将更加普及和先进。这些解决方案将采用双面中介层,实现两侧垂直堆叠,并在整个过程中嵌入流体冷却。此外,GPU-on-top 架构将有助于优先从计算层散热,而同轴 TSV 则有助于平衡信号完整性和热流。
https://www.tomshardware.com/pc-components/cooling/future-ai-processors-said-to-consume-up-to-15-360w-massive-power-draw-will-demand-exotic-immersion-and-embedded-cooling-tech
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4068期内容,欢迎关注。
加星标??第一时间看推送,小号防走丢
求推荐