首页 - 财经 - 产业观察 - 正文

CXL 4.0发布:带宽提高100%

关注证券之星官方微博:

(原标题:CXL 4.0发布:带宽提高100%)

公众号记得加星标,第一时间看推送不会错过。

来 源 : 内容来自半导体行业观察综合 。

数字存储和内存技术是高性能计算(包括人工智能)的关键要素。此前的SC25大会上,他们发布了一些令人瞩目的数字存储和内存技术。本文将重点介绍最新一代 CXL 技术以及 DDN 发布的 NVIDIA 认证解决方案,这些解决方案旨在支持自主人工智能。

CXL联盟负责维护Compute Express Link互连规范,该互连技术用于实现高速、高容量的CPU到设备和CPU到内存的连接。它扩展了服务器内存的容量,并允许进行超出传统DIMM插槽限制的内存池化。自2019年首次推出以来,CXL规范已经历了多次更新,如下图所示。


该联盟在SC25大会上发布了CXL 4.0规范。该规范的主要特性如下:

1、带宽翻倍至 128GTs,且无额外延迟。

2、支持CXL设备间的高速数据传输,直接提升系统性能

3、保留先前启用的 CXL 3.x 协议增强功能,包括 256B Flit 网络流控制单元格式

4、引入原生 x2 宽度概念,以支持平台中更大的扇出。

5、支持最多四个重定时器,以扩大频道覆盖范围

6、实现 CXL 捆绑端口功能

7、能够合并主机和 CXL 加速器(1/2 型设备)之间的设备端口,以提高连接带宽

8、提供内存可靠性、可用性和可维护性方面的增强功能。

9、继续完全向下兼容 CXL 3.x、2.0、1.1 和 1.0 版本。

通过在 CXL 主机和 CXL 加速器之间逻辑聚合 CXL 设备端口(或捆绑端口,如下图所示),可以提高主机与 CXL 设备连接之间的带宽。这对于 AI 应用尤其有用,因为 GPU 通常受限于数据带宽,需要尽可能利用所有可用的数据带宽。


下图详细展示了第四代 CXL 的增强功能。如图所示,第三代和第四代 CXL 为数据中心和广域网 (WAN) 计算提供了更强大的功能。这包括内存池化,其中各种类型的内存(包括 DRAM,也可能包括非易失性内存)以及各种本地计算加速器可以在处理器和服务器之间共享。


总结而言,CXL 4.0 规范将可用传输速度从 64GTs 提升至 128GTs。这一改进使得通过 CXL 连接的设备之间的数据传输速度更快,从而支持对低延迟和高吞吐量有较高要求的工作负载。此次更新保留了先前版本中引入的 256B Flit 格式,有助于确保不同 CXL 版本之间的性能一致性。

同时,CXL 4.0 引入的一项新特性是支持捆绑端口,它允许将设备上的多个端口组合起来,从而提高聚合带宽。该规范还支持原生 x2 带宽,允许更大的扇出和最多四个重定时器的使用,这可以扩展 CXL 通道在不同平台上的覆盖范围。主机系统和加速器之间设备端口的组合功能旨在为系统架构师提供更大的灵活性。

该规范还提升了内存的可靠性、可用性和可维护性 (RAS)。增强的 RAS 功能旨在提高错误可见性和维护效率,同时保持与先前版本规范的兼容性。联盟声明,该规范向下兼容 CXL 3.x、2.0、1.1 和 1.0 版本,从而能够更广泛地应用于行业,并为现有部署提供更平滑的过渡。

CXL 联盟主席兼财务主管、NVIDIA 首席工程师 Derek Rohde 强调了新规范开发的协作性质。

“CXL 4.0规范的发布为推进一致性内存连接树立了新的里程碑,其带宽比上一代产品翻了一番,并具备强大的新功能。此次发布体现了我们成员公司致力于推动开放标准的承诺,这些标准能够赋能数据中心创新,支持合规性和互操作性,并使整个行业能够扩展以适应未来的使用模式,”CXL联盟总裁兼财务主管Derek Rohde表示。

为什么CXL对人工智能至关重要

人工智能 (AI) 正步入一个前所未有的规模时代。从训练万亿参数的大型语言模型 (LLM) 到实现实时多模态推理,AI 工作负载正在重塑数据中心基础设施的根基。虽然 GPU 和加速器已成为 AI 的标志性设备,但一个关键瓶颈却隐藏在幕后:内存、带宽、延迟和可扩展性方面的挑战往往决定着 AI 系统的成败。而 Compute Express Link (CXL) 正是在此背景下应运而生,提供了一种变革性的解决方案。

以下是造成人工智能内存瓶颈的一些关键因素:

  • 训练基础模型需要巨大的内存容量,通常超过单个 GPU 的可用容量。

  • 大规模推理需要快速访问大型数据集,而无需在 GPU 之间重复分配内存。

  • 传统架构迫使 CPU、GPU 和加速器各自独立运行,造成效率低下。


如图 1 所示,在孤立的架构中,每个 CPU 或 GPU 都绑定到各自独立的内存,导致内存容量常常未被充分利用。而通过 CXL 池化,所有处理器都可以访问统一的共享内存空间。这种转变能够实现灵活的扩展、更高的内存利用率,并提升 AI 和数据密集型工作负载的性能。

Compute Express Link (CXL) 是一种开放的行业标准互连技术,旨在满足现代工作负载(尤其是在人工智能和高性能计算领域)日益增长的性能和可扩展性需求。与针对通用 I/O 优化的 PCIe 不同,CXL 专为连接 CPU、GPU、加速器和内存设备而设计,具有低延迟和完全缓存一致性,确保数据在异构处理器之间保持同步。CXL 超越了传统的设备到主机通信,实现了统一架构,使计算和内存资源能够在整个系统甚至服务器集群中无缝共享。

CXL 引入的最具影响力的功能之一是内存池化,它允许根据工作负载需求将内存动态分配给不同的设备,而不是静态地绑定到单个 CPU 或 GPU。这消除了闲置容量,并提高了内存资源的利用率。另一个关键特性是分层内存,高性能本地 DRAM 可以与更大的 CXL 连接内存池(例如 DDR5 或持久内存)配合使用,从而在速度、容量和成本效益之间取得平衡。最后,CXL 是可组合基础架构的基石,它允许实时组装和重新组装计算、加速器和内存等资源,以适应不断变化的工作负载需求,从训练大规模语言模型到运行对延迟敏感的推理任务,都能胜任。

简而言之,CXL 代表着从静态的、孤立的架构向灵活的、基于网络的计算的转变,为下一代人工智能和数据密集型系统铺平了道路。

为什么 CXL 对人工智能基础设施至关重要?

1、大型语言模型 (LLM) – CXL 能够跨节点进行内存池化,从而减少代价高昂的内存重复使用。

2、多GPU推理——共享内存池简化了部署并降低了基础设施开销。

3、可组合的 AI 数据中心——CXL 不会导致内存过度配置,而是允许灵活扩展。

CXL 内存池允许多个 GPU 共享一个统一的内存池,从而实现大型语言模型的有效扩展。

借助 CXL ,业界正从渐进式改进迈向数据中心架构的根本性变革。通过引入光纤网络拓扑、多级交换以及跨主机的一致性内存共享,CXL使整个服务器机架能够作为一个统一、灵活的 AI 架构运行。这对于大型语言模型等 AI 工作负载尤为重要,因为传统的 GPU 孤岛受限于内存限制,并被迫进行复杂的模型并行处理。借助跨 GPU 访问的共享一致性内存池,训练速度更快,重复计算更少,并且能够更高效地支持更大的模型。超大规模数据中心、云服务提供商和高性能计算 (HPC) 设施已经开始试点部署 CXL,从英特尔和 AMD 到三星和 HPE 等厂商也已将 CXL 纳入其产品路线图。展望未来,CXL 有望朝着更快的互连、更细粒度的组合性以及原生针对池化内存优化的 AI 框架发展。

总而言之,CXL 是一个转折点——从以服务器为中心的计算到以架构为中心的 AI 基础设施——为下一代可扩展的 AI 和 LLM 系统奠定了基础。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4236期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-