首页 - 财经 - 产业观察 - 正文

GPU集群怎么连?谈谈热门的超节点

关注证券之星官方微博:

(原标题:GPU集群怎么连?谈谈热门的超节点)

如果您希望可以时常见面,欢迎标星收藏哦~

人工智能(AI)的浪潮正以前所未有的速度重塑各行各业,其背后离不开海量算力的支撑。当AI模型参数从亿级跃升至万亿级,传统服务器已难以满足日益增长的算力需求与效率要求。为了打破这个瓶颈,一个全新的概念应运而生——超节点 (Super Node)。

不止于“大”:什么是超节点服务器?

简单来说,超节点服务器就是大量高速计算芯片的高效统一结构,面对AI算力大潮的最优解。它并非计算硬件的简单堆砌,而是将海量的计算单元(CPU/GPU/TPU等)以前所未有的密度和效率整合在一起,专门为应对人工智能任务带来的庞大算力需求而生。


AI算力需求大幅增长,带动AI智算中心需求增长

来源:麦肯锡

传统AI服务器虽然也集成了CPU、GPU等部件,但当AI模型参数动辄千亿、训练数据浩如烟海时,单个GPU的显存和算力就如同杯水车薪。模型并行(将一个大模型拆分给多个GPU协同处理)成为必然选择。但问题来了:参与模型并行的服务器之间需要进行海量、高速的数据交换,服务器间的以太网/InfiniBand网络带宽不足,往往成为“信息高速公路”上的堵点。

AI超节点的核心使命,正是要解决这个问题。它的显著特征在于:

1.极致的计算密度:在有限的空间内塞入尽可能多的算力和显存容量

2.强大的内部互联:采用NVLink等高速传输技术,让节点内的GPU之间能够“融为一体”,以最快的速度互相通信。

3.为AI负载深度优化:从硬件到软件,都为发挥AI训练和推理的最佳性能而设计。

超节点的“进化史”:从密度到智能

超节点的概念并非凭空出现。早期,数据中心就在追求更高的服务器密度以节省成本,例如刀片服务器和整机柜服务器(谷歌在1999年就定制了“软木板服务器”,堪称早期整机柜的雏形)。但这些早期尝试主要关注的是资源池化和空间效率,与今天的超节点在设计理念上有本质区别。


1999年, Google定制的"corkboard server"可能是互联网行业最早的整机柜服务器。

来源:X @Google Cloud

真正的转折点在于GPU的崛起。最初为游戏图形渲染而生的GPU,其强大的并行计算能力被发现是通用计算(GPGPU)的利器,尤其契合AI算法的需求。当Transformer这样的大型神经网络模型横空出世,对算力和显存的需求呈爆炸式增长时,单个GPU甚至单个服务器都难以招架。这时,不仅需要GPU内部的强大算力,更需要GPU之间、服务器之间的超高速互联来降低并行计算的开销,将大量GPU融为一体,共同承担训练和推理任务。

于是,像NVIDIA的NVLink这样的“内部高速专线”技术应运而生,它直接在GPU之间搭建起超宽车道。基于此,NVIDIA的DGX/HGX系列产品,将多颗GPU、CPU、高速内存、NVLink/NVSwitch等高度集成在一个优化设计的机箱内,这便可以看作一个典型的8卡“超节点”单元。


英伟达DGX H100系统内,8张GPU能通过NVSwitch两两互相通信

来源:英伟达

超节点的“杀手锏”:

为什么它是AI时代的必然选择?

AI大模型的发展遵循着规模定律(Scaling Law):更大的模型规模、更多的训练数据,直接带来更强的智能和性能。这意味着,对算力和显存的需求将持续指数级增长。同时,处理更长的信息序列(Sequence Length)也是AI提升记忆和处理复杂能力的关键,这同样会急剧增加对算力,特别是显存的需求。


训练模型需要的算力不断增长

来源:2025斯坦福AI报告


长序列带来的准确率收益以及显存需求

来源:Cerebras Systems

然而,提升集群算力面临几大障碍:

1.“内存墙”:芯片通信速度的增长跟不上芯片算力的增长,GPU核心没有足够的数据用于计算就只能干等着,这就是“内存墙”问题。有时新一代芯片的实际有效算力(HFU, Hardware FLOPS Utilization)甚至因为数据喂不饱而不如上一代。

2.“规模墙”:通过简单堆叠服务器(Scale out)来扩大集群规模,当集群达到一定程度后,全局批处理大小(GBS)不能无限增加,服务器间的通信开销会抵消算力增加的收益,导致硬件有效算力不升反降。

3.“通信墙”:大模型并行(如张量并行或MoE模型的专家并行)会在GPU间产生巨量的通信,这部分通信很难与计算过程并行处理(简单来说就是让计算、通信任务同时进行,节省时间)。如果使用服务器间的低速网络通信,带宽瓶颈会严重拖累效率。

为了突破这些瓶颈,业界将目光投向了“纵向扩展”(Scale-Up),致力于构建更大的超大带宽域 (HBD,High Bandwidth Domain)。在这个网络内的GPU,彼此间的通信带宽远超普通网络。当AI模型需要多个GPU协同工作时(即模型并行),如果这些GPU都在同一个HBD内,它们就能像一个配合默契的团队一样高效沟通,大大减少数据传输的延迟。目前,典型的HBD通常局限在单台8GPU服务器内。但随着模型越来越大、序列越来越长,这种规模的HBD也开始捉襟见肘。

因此,构建拥有更多GPU的、更大的HBD,即“超节点”,成为了提升AI集群整体战斗力的关键。

超节点的优势,不仅仅是“快”:更优的部署、供电与冷却方案

1.更优的部署与运维效率 -> 成本节约:

  • 供电:传统服务器各自配冗余电源,资源利用率不高。超节点将电源集中管理,用更少的冗余部件覆盖整个机柜,还能用上效率更高的大功率电源模块。

  • 散热:高密度排列允许使用大型风扇墙或先进液冷系统,对整个机柜进行高效散热。大风扇比小风扇在同等风量下更节能。

  • 管理:更为先进的高集成度、模块化设计降低了运维难度。

2.更低的能耗与更高的能效 -> 运营成本降低:

  • 虽然超节点是“耗电巨兽”,发热量惊人,但其PUE(数据中心总能耗/IT设备能耗,越接近1越好)反而可能更低。奥秘在于其不得不采用的液体冷却技术。液体的高传热效率使液冷技术远胜传统风冷,尽管初期投资较高,但长期运营的能效优势显著。对于数据中心这类重资产投资,更低的PUE意味着更低的运营成本和更高的投资回报率。


左侧:单个服务器使用的小风扇

右侧:超节点的大风扇墙

来源:HP、2CRSI


左侧:单节点服务器需要多个小电源模组

右侧:超节点的集成式大功率电源模组

来源:海韵、台达

前进路上的“三座大山”:

超节点面临的技术挑战

尽管超节点威力无穷,但要驾驭这头“算力巨兽”,还需克服几大技术挑战:

1.供电系统:如何喂饱“吞电兽”?传统服务器机柜功耗通常在几千瓦,而AI超节点机柜功耗可达100千瓦甚至更高!单个包含2CPU+4GPU的AI机架的功耗可达相同体积传统服务器机架的数倍乃至数十倍。如此巨大的功耗,对供电系统提出了严峻考验。我们知道功率 P=UI。要提升功率,要么升电压,要么增电流。但电流过大会导致线材发热严重(Q ∝ I2R),甚至引发安全问题。因此,提升输入电压(例如从传统的48V向400/800V甚至更高电压演进)和优化配电架构成为必然。电力成本占数据中心运营成本的30-50%,超节点的出现只会增加这一比重。因此,任何能够提升供电效率、减少损耗的技术,都具有巨大的商业价值。

2.冷却系统:给“发烧”的芯片降温芯片功率密度持续攀升,当单芯片TDP(热设计功耗)超过数百瓦,甚至上千瓦时,传统空气冷却已独木难支。风冷在应对单机柜30kW以上高热密度时就已捉襟见肘,而超节点机柜奔着100kW+去了。液体冷却(液冷)因其卓越的散热效率,成为下一代超节点的标配。无论是冷板式液冷还是浸没式液冷,都能轻松应对超高热密度。高效的冷却不仅能保证芯片不因过热而降频(性能下降),还能延长硬件寿命,降低故障率。液冷技术虽然初始投资不菲,但其带来的PUE改善和对更高功率密度的支持,使其成为未来数据中心的主流。

3.网络系统:构建畅通无阻的“数据动脉”在超节点内部,GPU间能通过NVLink等技术高速互联,但互联的物理介质也需权衡:铜缆便宜、功耗低,但传输距离受限;光缆成本高、功耗稍大。而在超节点之间,以及超节点与存储、外部网络之间,依然需要高速、低延迟的互联技术。InfiniBand和高速以太网是目前主流的选择。如何设计高效的集群网络拓扑,避免通信瓶颈,是一门复杂的艺术。

群雄逐鹿:超节点技术现状

主流技术趋势概览:

  • 供电:在机柜间,技术趋势是将服务器电源集中到机柜级,采用更高效率的集中供电单元,减少冗余,降低成本。在机柜内部,目前的超节点系统(如GB200 NVL72)使用48V直流母线槽(Busbar)取代传统的12V供电。更高的电压能减少转换损耗,同时简化设计。对供电系统的功耗、效率、温度、备电状态等参数进行精细化监控和管理也是重要趋势。

  • 冷却:直触液冷(Direct Liquid Cooling, DLC),特别是冷板式液冷,是超高功率密度AI超节点使用的主流技术。它将冷却液直接送到CPU、GPU等发热大户,散热效率远超风冷。后门热交换器(RDHx)作为风冷数据中心向液冷方案转型的过渡方案,也有较多应用。

  • 节点间网络互联:InfiniBand凭借其低延迟、高带宽特性,又背靠NVIDIA的深厚软硬件技术壁垒,长期是AI领域通信方案的首选。以RoCE(RDMA over Converged Ethernet)为代表的高速以太网凭借其广泛的生态系统和不断提升的性能,也是AI领域的重要选择。

巨头们的“超节点答卷”:

英伟达 GB200 NVL72:行业风向标

  • 在一个液冷机柜内,GB200 NVL72通过NVLink将36个Grace CPU和72个Blackwell GPU紧密集成,形成一个逻辑上的“巨型GPU”,拥有高达130TB/s的GPU间总带宽和海量统一显存。

  • NVIDIA凭借其强大的硬件和CUDA生态,几乎定义了AI超节点的游戏规则。GB200 NVL72不仅是技术的集大成者,更是市场风向标。其极高的集成度和计算密度,以及在能效上的突破,使其成为构建顶级AI基础设施的首选。


英伟达 GB200 NVL72

来源:英伟达

华为 CloudMatrix 384:“大力出奇迹”与自主可控

  • CM384由384个昇腾910C 芯片构成,横跨16个机柜(12个计算柜,4个网络柜),采用全光互连的All-to-All网络。

  • CloudMatrix 384代表了在当前地缘政治背景下,追求算力自主可控的战略选择。其设计思路是在单芯片性能可能存在差距时,通过“大力出奇迹”式的芯片规模,配合先进的系统级互联,来实现具有国际竞争力的整体系统性能。当然,“大力出奇迹”也有代价,就是整个系统的功耗远高于GB200 NVL72。


华为 CloudMatrix 384

来源:华为

决胜未来:超节点的技术演进方向

超节点的技术仍在飞速发展,以下几个方向预示着未来的变革,也孕育着新的投资机遇:

1.直流高压输电 (HVDC):为数据中心“心脏”注入强劲动力

数据中心内部供电正从传统交流(AC)向400V/800V甚至更高电压的直流(DC)转变。市电以高压交流电形式引入数据中心,需经变压器降压至适合使用的低压。传统UPS系统需多次进行AC-DC-AC转换,而HVDC方案通过高压输电省去一次交直流转换,市电经AC/DC整流直接输出240V直流电,减少转换损耗,显著提升供电效率,直接降低电力成本。

2.下一代液冷方案:与热量的终极较量

随着芯片功耗密度不断刷新上限,对冷却技术的要求也水涨船高。除了主流的冷板式液冷,更前沿的方案正在涌现:

  • 微流控冷却:在芯片表面蚀刻微通道,让冷却液直接流过热源,实现极致的散热效率和温控精度。挑战在于制造成本和微通道的可靠性。

  • 相变液冷:利用冷却液在受热时从液态变为气态吸收大量潜热的原理散热。包括两相浸没式和直接到芯片的两相系统。传热系数极高,但系统管理复杂。

  • 浸没式液冷:将整个服务器或发热部件完全浸泡在不导电的冷却液中。分为单相(液体不相变)和两相(液体相变)两种。散热能力极强,能支持高密度节点部署,还能起到防尘防湿的作用。缺点在于浸没式冷却方案使用的冷却液较为昂贵,设施改造投入大,并且维护流程较为复杂。


HVDC供电系统示意图

来源:NTT Group


浸没式液冷示意图

来源:Green Revolution Cooling

3. CPO光互联 (Co-Packaged Optics):光联万物,突破I/O瓶颈

  • 随着芯片算力飙升,芯片与芯片之间、芯片与网络之间的数据传输速率(I/O)成为新的瓶颈。CPO技术将光模块尽可能地靠近(甚至集成到)CPU/GPU/交换芯片的封装内部,用光互连取代部分电互连。

  • CPO能提供超高的带宽密度、更低的I/O功耗和更短的延迟。这不仅能提升现有系统性能,更有可能催生全新的系统架构,如资源解耦(计算、内存、存储资源池化并通过高速光路互联)。

  • 尽管CPO旨在降低I/O功耗,但光学组件本身也会发热,并且有着敏感的工作温度要求。将它们放置在已经非常热的计算芯片附近,会产生复杂的热管理挑战。


Spectrum-X/Quantum-X交换机芯片

来源:英伟达

结语

超节点不仅仅是一项技术革新,更是AI时代驱动算力飞跃的核心引擎。它不仅仅是更大、更强的服务器,更是一系列尖端技术(高端芯片、高速互联、先进制冷、高效供电)的集大成者,代表了AI数据中心架构的未来发展方向。

作为超节点领域的探索者,魔形智能凭借深厚的技术积累,为客户打造领先的AI算力基础设施。我们致力于与业界伙伴共同推动超节点技术的创新与应用,赋能千行百业的智能化转型。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4039期内容,欢迎关注。


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦


微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-