(原标题:CPO找到了杀手级应用)
公众号记得加星标,第一时间看推送不会错过。
来 源 : 内容 编译自 theregister 。
电源正成为数据中心运营商的一大难题,因为他们正努力应对如何支持越来越大规模的 GPU 服务器部署——以至于人工智能的蓬勃发展现在正在推动这项曾经被认为太不成熟且容易出错而不值得冒险的技术的采用。
我们当然指的是共封装光(CPO)交换机。
在本周于圣路易斯举行的 SC25 超级计算大会上,英伟达透露,GPU 位集群运营商 Lambda 和 CoreWeave 将采用其 Quantum-X Photonics CPO 交换机,同时德克萨斯高级计算中心 (TACC) 也将部署该交换机。
英伟达面临着一些竞争:博通展示了其基于 Tomahawk 5 和 6 的 CPO 交换机。虽然 CPO 交换机有望在 2026 年迎来爆发式增长,但走到今天这一步并非易事——而且这段旅程远未结束。
那么,是什么推动了CPO的更迭呢?用前《Top Gear》主持人杰里米·克拉克森的话来说就是“速度和力量”。
AI 网络需要极快的端口速度,高达 800 Gbps,而英伟达已经通过其下一代 ConnectX-9 网卡制定了实现 1.6 Tbps 端口速度的计划。
遗憾的是,在这样的速度下,直连铜缆的传输距离只有一两米,而且通常需要昂贵的重定时器。将成千上万个GPU连接在一起,意味着可能需要数十万个耗电的可插拔收发器。
像博通这样的网络设备厂商多年来一直在尝试CPO技术。顾名思义,这项技术是将传统上位于可插拔收发器中的光组件集成到设备本身,使用一系列与交换机ASIC封装在一起的光子芯片。光纤对不再需要QSFP插槽和可插拔模块,而是直接连接到交换机的前面板。
虽然每个收发器消耗的功率并不多——根据端口速度的不同,大约在 9 到 15 瓦之间——但当谈到 AI 后端网络中使用的那种大型无阻塞胖树网络时,这很快就会累积起来。
拥有 128,000 个 GPU 的计算集群,只需改用 CPO 交换机,即可将可插拔收发器的数量从近 50 万个减少到约 128,000 个。
英伟达估计其光子交换机的能效提高了 3.5 倍,而博通的数据表明,该技术可以将光器件的功耗降低 65%。
怎么花了这么长时间?
CPO普及的最大障碍之一是其可靠性以及发生故障时的影响范围。
在传统交换机中,如果光插拔模块发生故障或性能下降,您可能只会失去一个端口,而不会导致整个交换机瘫痪。而对于CPO(光子芯片)技术,如果其中一个光子芯片发生故障,您失去的不仅仅是一个端口——您可能会失去8个、16个、32个甚至更多端口。
这也是包括博通和英伟达这两家巨头在内的大多数CPO供应商选择外部激光模块的原因之一。
激光器是光收发器中比较容易出现故障的组件之一,因此,通过将其保持在更大的可插拔外形尺寸中,不仅可以方便用户维修,还可以在发生故障时通过提高其他组件的输出来补偿故障。
但事实证明,许多此类担忧似乎毫无根据。实际上,博通和Meta的早期测试表明,这项技术不仅通过减少光模块和交换机ASIC之间的电气接口数量来降低延迟,而且可靠性也显著提高。
上个月,Meta透露,它不仅在其数据中心部署了博通公司代号为Bailly的51.2 Tbps共封装光交换机,而且还记录了在400 Gbps等效端口速度下累计100万小时无抖动运行的设备数据。
如果您不熟悉链路抖动,链路抖动是指交换机端口快速连续地开启和关闭,从而导致网络不稳定并中断信息流。
与此同时,英伟达声称其光子网络平台的弹性提高了 10 倍,使训练工作负载等应用程序能够运行更长时间而不会中断,持续时间延长 5 倍。
CPO交换机的当前状态
正如我们前面提到的,博通和英伟达是最早采用 CPO 进行数据包交换的公司之一。
你可能还记得,在今年春季的 GTC 大会上,Nvidia 展示了其首款 CPO 交换机,包括 InfiniBand 和以太网两种版本,分别是 Spectrum-X 和 Quantum-X。
英伟达的 Quantum-X Photonics 平台采用全液冷设计,配备 144 个 800Gbps InfiniBand 端口,使用 200Gbps 串行器-解串器,使其总带宽达到 115.2Tbps。
这些是 TACC、Lambda 和 CoreWeave 在本周的 SC25 大会上宣布的计划,他们将在未来的计算基础设施中部署这些交换机。
对于那些更倾向于使用以太网的用户来说,选择更加多样化。Nvidia 将根据用户的需求提供多种版本的 Spectrum-X Photonics 交换机。对于需要最大端口数(即大量端口)的用户,Nvidia 将提供配备 512 个或 2048 个 200 Gbps 接口的交换机。
同时,追求极致性能的用户可以选择 128 个或 512 个 800 Gbps 端口。
英伟达的光子以太网套件要到明年才能上市,而且已经面临来自博通等公司的竞争。Micas Networks 已经开始出货一款基于博通早期 Tomahawk 5 ASIC 和 Bailly CPO 技术的 51.2 Tbps CPO 交换机。
除了交换机之外,博通还展示了其最新一代 Davisson CPO 平台,该平台配备了 102.4 Tbps 的 Tomahawk 6 交换机 ASIC,可分出多达 512 个 200 Gbps 接口。
接下来会发生什么?
到目前为止,Nvidia 将其大部分光模块注意力集中在 CPO 交换机上,而更倾向于在网卡端使用 QSFP 插槽和可插拔收发器——至少在其新发布的ConnectX-9 系列超级网卡中是如此。
然而,博通和其他公司正致力于尽快将共封装光学器件应用于加速器本身。您可能还记得,在2024年的Hot Chips大会上,博通详细介绍了一款面向大规模计算领域的6.4 Tbps光学引擎。
包括 Celestial AI、 Ayar Labs和Lightmatter在内 的其他几家公司也在寻求将光 I/O 引入加速器。
Ayar 和 Lightmatter 都在 SC25 上展示了他们最新的 CPO 和光中介层技术的现场演示。Ayar 展示了与 Alchip 合作开发的参考设计,该设计使用 UCIe-S 和 UCIe-A 互连的组合,将八个 TeraPHY 芯片集成到单个封装中,最终将为芯片间的双向连接提供高达 200 Tbps 的带宽。
与此同时,Lightmatter正从两个方面着手解决光I/O问题。首先是CPO芯片,该公司声称该芯片在使用56 Gbps NRZ编码时可提供高达32 Tbps的带宽,使用112 Gbps PAM4编码时可提供高达64 Tbps的带宽。
此外,Lightmatter 还开发了一种名为 Passage M1000 的硅光子中介层,该中介层旨在利用光子互连将多个芯片连接在一起,用于芯片间通信和封装间通信。
最终,这些技术或许能够完全消除对可插拔光学器件的需求,甚至为构建更高效的可扩展计算域铺平道路,使数千个加速器能够协同工作。
https://www.theregister.com/2025/11/22/cpo_ai_nvidia_broadcom/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4236期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
