(原标题:拥有20万GPU的集群建好了,只用了122天)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:本文 编译自 tomshardware ,谢谢。
埃隆·马斯克的 xAI 孟菲斯超级集群一期项目刚刚达到满负荷运营,现场变电站已投入运营并连接到主电网。据大孟菲斯商会称,该站点将从孟菲斯电力、燃气和水务局 (MLGW) 和田纳西河谷管理局 (TVA) 获得 150 兆瓦的电力。除此之外,xAI Colossus 超级计算机还拥有另外 150 兆瓦的 Megapack 电池作为备用电源,使其能够在断电或用电需求增加时持续供电。
马斯克于去年 7 月首次启动他的 AI 集群,该集群在单一架构上搭载了 10 万块 Nvidia H100 GPU。这台 xAI 超级计算机的搭建速度非常快,公司只用了 19 天就将其投入运行——而 Nvidia 首席执行官黄仁勋表示,这通常需要四年时间。然而,如此快的速度意味着它不得不走一些捷径,比如在没有电网供电的情况下启动,因此该站点使用了大量天然气涡轮发电机来满足其电力需求。初步报告称,该站点内停放了 14 台发电机,每台输出功率为 2.5 兆瓦,但一些居民最近抱怨说,附近发现了超过 35 台涡轮机。
这一开发意味着该基地一期工程现在可以完全依靠田纳西河谷管理局(TVA)的电力运行,TVA约60%的发电量来自水力发电、太阳能、风能和核能等可再生能源。因此,xAI现在将停用约一半曾临时用于为Colossus项目供电的发电机——但另一半仍将保留,以满足孟菲斯超级集群二期工程的电力需求。
不过,我们预计这种情况不会持续太久,因为第二座变电站预计将于今年秋季投入使用,该变电站将提供另外150兆瓦的电力。这意味着Colossus变电站的总发电量将达到300兆瓦,足以为30万户家庭供电。这是一个巨大的电力需求,此前曾有人担心田纳西河谷管理局(TVA)是否有足够的发电能力来满足这一需求。电力供应商已向各利益相关方保证,它能够在不影响其他电力供应的情况下满足这一需求。
Colossus 最初于 2024 年 7 月推出,搭载 10 万块 Nvidia H100 芯片,到 2025 年 2 月,其 GPU 数量将翻一番,达到 20 万块。据报道,马斯克希望将孟菲斯超级集群的 GPU 数量扩大到 100 万块,并且他已经在努力筹集资金,以实现这一梦想。然而,在同一地点部署如此多的 GPU 意味着需要更多的电力——希望田纳西河谷管理局 (TVA) 能够在不影响孟菲斯超级集群附近居民电力质量的情况下满足这一需求。
关于Colossus,我所知道的
埃隆·马斯克对各科技领域的宏伟愿景如今已聚焦于人工智能 (AI),他创立了xAI公司,致力于 AI 开发。这项努力的核心是 Colossus,它是全球最强大的超级计算机之一,能够彻底重新定义 AI 的能力。
Colossus 的诞生不仅标志着马斯克 xAI 的一项重要成就,也标志着整个人工智能社区的一项重要成就,该社区希望在该技术的应用中发挥主导作用。
xAI 由特斯拉和 SpaceX 首席执行官马斯克于 2023 年中期正式成立,目标是 “发现现实世界是什么样的”。
根据其使命宣言,“xAI 是一家致力于构建人工智能以加速人类科学发现的公司。我们的使命是增进我们对宇宙的集体理解。”
据马斯克称,他创立这家公司是因为他开始担心不受监管的人工智能的危险。xAI 的既定目标是利用人工智能进行科学发现,但方式不具有剥削性。
xAI 超级计算机旨在推动从机器学习到神经网络的尖端人工智能研究,计划使用 Colossus 训练大型语言模型(如 OpenAI 的 GPT 系列),并将框架扩展到自动机器、机器人和科学模拟等领域。
Colossus 于 2024 年 9 月在田纳西州孟菲斯市启动。该数据中心位于南孟菲斯工业园区内一处前伊莱克斯制造基地。
田纳西河谷管理局 已批准向该电厂提供超过 100 兆瓦的电力。
Colossus 系统最初配备了 100,000 个 Nvidia H100 GPU,这使其成为世界上最重要的 AI 训练平台之一。
这些 GPU 在 19 天内完成部署,凸显了 xAI 对快速扩展其 AI 基础设施的关注。
考虑到配置如此广泛的基础设施通常需要数月甚至数年的时间,部署本身引起了媒体和数据中心/人工智能行业的极大关注。
最初设置的 100,000 个 GPU 使其能够达到高水平的处理能力,使 xAI 能够以尖端速度处理高度复杂的 AI 模型。
鉴于当代人工智能模型的复杂性和规模不断增加,这种速度和效率至关重要,因为现代人工智能模型需要输入大量数据集并使用巨大的计算能力。
LLM 设计非常类似于“如果你建造它,他们就会来”的模型,其重点是利用可用的处理能力。
2024 年 11 月,xAI 宣布将通过一笔数十亿美元的交易将 Colossus 的容量提高一倍。
该公司计划在未来几年筹集 60 亿美元,其中大部分来自中东主权财富基金。
它将涵盖在现有 GPU 上添加 100,000 个 GPU 的成本,使现有 GPU 数量达到 200,000 个。
计划中的升级将添加 Nvidia 的新款 Blackwell H200 GPU,其功能比最初推出的 H100 GPU 更加强大。
H200 GPU 在性能和效率方面提供了显著的提升,并将使 xAI 能够更快、更准确地训练 AI 模型。
这些 GPU 针对深度学习和神经网络训练进行了优化,因此非常适合 xAI 的大型 AI 项目。
据 Nvidia 称,根据工作负载的不同,Blackwell GPU 的速度可比上一代 GPU 快 20 倍。
然而,Blackwell GPU 向客户交付却遇到了障碍。
由于 Nvidia 发现并修复了一些设计缺陷,下一代芯片的交付时间已经推迟了一个季度。
据报道,Nvidia 定制设计的服务器机架中的 72 GPU 配置过热,因此出现了新的延迟。
据雅虎财经报道,尽管尚未确认 GB200 的 2025 年交付是否会延迟,而且 Nvidia 也不愿评论服务器机架的最终设计是否已经完成,但该问题的宣布导致 Nvidia 股价下跌近 3%。
这个更大的 Colossus 基础设施将使 xAI 更容易构建和测试其 AI 模型(特别是 Grok LLM)。
它们旨在挑战甚至超越目前占主导地位的人工智能系统,例如 OpenAI 的 GPT-4 和谷歌的 Bard。
Colossus 与其他超级计算机的不同之处不仅在于其底层计算能力,还在于其量身定制的人工智能基础设施。
该系统旨在满足人工智能训练的特殊需求——处理大量数据并运行必须并行化的高度先进的算法。
据广泛报道,戴尔科技和超微都与 xAI 合作打造了这台超级计算机。
Nvidia H100 和 H200 GPU 的组合将使 Colossus 在速度和效率方面占据明显优势。这些 GPU 还配备专用的张量核心,有助于加速深度学习算法。
此外,这些 GPU 的内存带宽足够强大,可以有效处理训练最新 AI 模型所需的大数据集。
Colossus 的主要构建模块是 Supermicro 4U 通用 GPU 液冷系统。
每台4U服务器配备8块NVIDIA H100 Tensor Core GPU,为AI训练任务提供强大的算力。
服务器被组织成机架,每个机架包含八台 4U 服务器,每个机架总共 64 个 GPU。
每个 4U 服务器之间都有一个用于液体冷却的歧管,占用 1U 的机架空间,每个机架的底座包含一个 4U CDU 泵送系统,提供冗余冷却和管理单元。
这些服务器使用 NVIDIA 的 Spectrum-X 以太网网络平台进行互连,实现了 AI 训练所必需的高带宽、低延迟通信。
每台服务器都配备多个 400GbE 连接,运行在支持 800 GBE 的电缆上,而不是Nvidia 也支持用于大规模部署的Infiniband 选项。
在当前架构中,集群中的每个 GPU 都配备一个专用的 400 GB 网络接口卡,另外还有一个专用于服务器的 400 GBE NIC,每个服务器的潜在总带宽为 3.6 TB。
每个阵列有 512 个 GPU(8 个机架,每个机架 64 个 GPU),总共有近 200 个阵列。
10 月份,NVIDIA 负责人黄仁勋宣布,最初的 100,000 个 GPU 超级计算机仅用 19 天就搭建完成,而他所说的普通数据中心的建设过程通常需要四年时间。
那么公司利用这些性能做什么呢?
Grok 系列大型语言模型是 xAI 的重点关注对象。这类模型能够解释和创建类似人类的文本,就像 OpenAI 的 GPT 系列一样。
由于 Colossus 的计算能力,Grok 模型应该比当前的语言模型更有效、更强大。
除了语言模型之外,xAI 还计划探索其他 AI 应用,例如自动驾驶汽车、机器人技术和科学模拟。xAI 计划通过 Colossus 挑战 AI 在这些领域的能力。
例如,该公司正在探索在科学领域利用人工智能寻找新材料、节约能源,甚至帮助寻找新药。
(如果您认为所有这些能力都是为了让特斯拉自动驾驶汽车成为现实,那么还有一台完全不同的 AI 超级计算机专门用于这项任务,即位于特斯拉 GigaTexas 工厂的拥有 50,000 个 GPU 的 Cortex AI 超级集群。)
Colossus 还采用了所谓的“尖端冷却系统”,确保 GPU 以最稳定、最佳的温度运行,以实现稳定性和性能。
这一点尤其重要,因为如此大量的快速 GPU 会产生大量热量。
对于这种类型的机架密度,最佳冷却绝对至关重要,并且使 Blackwell 服务器基础设施因过热而导致的潜在延迟变得更容易理解。
由于像 Colossus 这样的客户都急于大量推出下一代设计,因此冷却系统从一开始就必须正常工作。
正如我们之前报道的那样,许多供应商正在与 Nvidia 合作,专门为 Nvidia GPU 服务器开发冷却系统。
虽然我们已经报道了数据中心液体冷却领域的许多供应商,但该领域另一家快速发展的公司Boyd上周宣布,他们推出了一款产品,可以“借助 Nvidia 的 GB200 NVL72 增强 AI 部署的简易性和速度”。 这是为 72 GPU 集群中的下一代 Blackwell GPU 设计的服务器硬件。
Boyd 首席执行官 Doug Britt 指出,他们的液冷技术专为人工智能设计,解决了如何冷却这些高要求应用程序和硬件的问题,同时简化了部署并使其更快地启动和运行。Britt 补充道:
我们看到,下一代大型语言模型的参数已超过 1 万亿,需要先进的计算能力,例如 NVIDIA GB200 NVL72 平台所提供的能力,而更高水平的冷却技术则可进一步增强其性能。AI 系统架构师依靠 Boyd 冷却技术,以最节能的方式有效扩展计算密度,而无需扩大数据中心和机架空间。
过去几年,创建最有效的人工智能系统的竞争日益激烈,谷歌、微软和 OpenAI 大力投资超级计算机和人工智能研究。
通过对 Colossus 的投资,xAI 具有潜在的竞争优势,使其能够快速训练其 AI 模型,并可能比竞争对手更快地取得突破。
大规模模型训练不仅缩短了构建新 AI 技术所需的时间,而且还可以帮助 xAI 深入研究由于计算限制而无法实现的新 AI 研究领域。
通过筹集资金来扩大 Colossus 的规模,xAI 正在为未来做好准备。新增的 10 万块 GPU 将使系统的物理容量几乎翻倍,这将使 xAI 能够应对更大的挑战。
与此同时,Nvidia 声称 GB200 GPU 的性能提升远超现有的 H100 部件,这并非简单的数学意义上的性能提升。这可能会对 AI 社区产生深远的影响,xAI 的发展将为重新定义 AI 技术的应用提供机会。
Colossus 项目并非一帆风顺。为一个拥有 20 万个 GPU 的系统提供冷却和供电的成本非常高昂,尤其是在可持续性成为首要关注点的当下。
此外,马斯克表示,他预计 Colossus 扩建所需的资金将依赖于主权财富基金,尤其是来自中东的基金。
该计划受到了一些方面的批评,有人认为,外国拥有新的人工智能技术可能会产生地缘政治后果,特别是如果它被应用于研究角色之外的实际用途。
https://www.tomshardware.com/tech-industry/artificial-intelligence/musks-colossus-is-fully-operational-with-200-000-gpus-backed-by-tesla-batteries-phase-2-to-consume-300-mw-enough-to-power-300-000-homes
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4028期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦