首页 - 财经 - 产业观察 - 正文

万字解读AMD的CDNA 4 架构

关注证券之星官方微博:

(原标题:万字解读AMD的CDNA 4 架构)

公众号记得加星标??,第一时间看推送不会错过。

来源:内容编译自AMD。

CDNA 4 是 AMD 最新的面向计算的 GPU 架构,在 CDNA 3 的基础上进行了适度更新。CDNA 4 主要致力于提升 AMD 在低精度数据类型下的矩阵乘法性能。这些运算对于机器学习工作负载至关重要,因为机器学习工作负载通常可以在极低精度类型下保持可接受的准确度。同时,CDNA 4 致力于保持 AMD 在更广泛应用的矢量运算方面的领先地位。


为此,CDNA 4 在很大程度上采用了与 CDNA 3 相同的系统级架构。它采用大规模芯片组设置,与 AMD 在 CPU 产品中成功运用芯片组的做法类似。加速器计算芯片(XCD)包含 CDNA 计算单元,其作用类似于 AMD CPU 产品上的核心复合芯片 (CCD)。八个 XCD 位于四个基础芯片之上,这些基础芯片实现了 256 MB 的内存侧缓存。AMD 的 Infinity Fabric 技术可在整个系统中提供一致的内存访问,并可跨越多个芯片。


与基于 CDNA 3 的 MI300X 相比,搭载 CDNA 4 的 MI355X 略微减少了每个 XCD 的 CU 数量,并禁用了更多 CU 以维持良率。由此产生的 GPU 宽度略小,但更高的时钟速度弥补了大部分差距。与 Nvidia 的 B200 相比,MI355X 和 MI300 都是更大的 GPU,拥有更多基本构建模块。Nvidia 的 B200 确实采用了多芯片策略,打破了长期以来使用单片设计的传统。然而,AMD 的 chiplet 设置更加激进,并试图在具有大型计算 GPU 的 CPU 设计中复制其扩展成功。

计算单元变化

CDNA 3 的矢量吞吐量优势远超 Nvidia 的 H100,但在机器学习工作负载方面则更为复杂。得益于成熟的软件生态系统以及对矩阵乘法吞吐量(张量核心)的高度关注,Nvidia 通常能够接近名义上规模更大的 MI300X。当然,如果 H100 的显存耗尽,AMD 仍然保持着巨大的优势,但 AMD 肯定还有改进的空间。

CDNA 4 重新平衡了其执行单元,使其更专注于低精度数据类型的矩阵乘法,而这正是机器学习工作负载所需的。在许多情况下,每 CU 的矩阵吞吐量翻倍,CDNA 4 CU 在 FP6 中与 Nvidia 的 B200 SM 匹敌。不过,在其他方面,Nvidia 仍然更加注重低精度矩阵吞吐量。在 16 位和 8 位数据类型范围内,B200 SM 的每时钟吞吐量是 CDNA 4 CU 的两倍。AMD 继续依靠拥有更大、更高时钟频率的 GPU 来保持整体吞吐量领先地位。


凭借矢量运算和更高精度的数据类型,AMD 延续了 MI300X 的巨大优势。每个 CDNA 4 CU 继续拥有 128 条 FP32 通道,计算 FMA 运算时每周期可提供 256 FLOPS 的计算能力。MI355X 较低的 CU 数量确实导致矢量性能与 MI300X 相比略有下降。但与 Nvidia 的 Blackwell 相比,AMD 更高的核心数量和更高的时钟速度使其在矢量吞吐量方面保持了巨大的领先优势。因此,AMD 的 CDNA 产品线在高性能计算工作负载方面仍然表现不俗。


Nvidia 专注于机器学习和矩阵运算,尽管运行频率较低的 SM 数量较少,但 Nvidia 在该领域仍保持着极强的竞争力。AMD 的巨型 GPU MI355X 在许多数据类型上都处于领先地位,但 AMD 与 Nvidia 最强 GPU 之间的差距远不及矢量计算那么大。


更大的 LDS

GPU 提供了一个软件管理的暂存器,用于本地一组线程(通常是在同一核心上运行的线程)。AMD GPU 使用本地数据共享 (LDS) 来实现此目的。Nvidia 将其类似的结构称为共享内存。CDNA 3 拥有一个 64 KB 的 LDS,延续了 AMD GCN GPU 早在 2012 年就采用的类似设计。该 LDS 拥有 32 个 2 KB 的存储体,每个存储体宽度为 32 位,在没有存储体冲突的情况下,每个周期最多可提供 128 个字节。


CDNA 4 将 LDS 容量提升至 160 KB,并将读取带宽翻倍至每时钟 256 字节。GPU 原生运行于 32 位元素,因此可以合理地假设 AMD 通过增加存储体数量来翻倍带宽。如果是这样,那么每个存储体现在可能拥有 2.5 KB 的容量。另一种可能性是将存储体数量增加到 80 个,同时将存储体大小保持在 2 KB,但这不太可能,因为这会使存储体选择变得复杂。64 个存储体的 LDS 自然可以支持 64 位宽的波前访问,每个存储体服务于一个通道。此外,2 的幂次方个存储体数量允许通过地址位子集轻松选择存储体。

更大的 LDS 空间允许软件将更多数据保存在靠近执行单元的位置。内核可以分配更多 LDS 容量,而不必担心 LDS 容量限制导致占用率降低。例如,分配 16 KB LDS 的内核可以在 CDNA 3 CU 上运行 4 个工作组。在 CDNA 4 CU 上,这个数字将增加到 10 个工作组。


软件必须显式地将数据移入 LDS 才能利用它,与使用硬件管理的缓存相比,这可能会增加开销。CDNA 3 具有 GLOBAL_LOAD_LDS 指令,允许内核将数据复制到 LDS 中,而无需经过向量寄存器文件。CDNA 4 增强了 GLOBAL_LOAD_LDS 指令,使其支持每通道最多 128 位的移动,而 CDNA 3 上每通道仅支持 32 位。也就是说,GLOBAL_LOAD_LDS 指令可以接受 1、2、4、12 或 16 个 DWORDS(32 位元素)的大小,而 CDNA 3 上只能接受 1、2 或 4 个 DWORDS 。

CDNA 4 还引入了读取转置 LDS 指令。矩阵乘法涉及将一个矩阵中某一行的元素与另一个矩阵中相应列的元素相乘。这通常会对至少一个矩阵造成低效的内存访问模式,具体取决于数据是按行主序还是列主序排列。转置矩阵可以将笨拙的行列操作转换为更自然的行行操作。对于 AMD 的架构来说,在 LDS 上处理转置也很自然,因为 LDS 已经有一个交叉开关,可以将存储体输出映射到通道(swizzle)。

即使 LDS 容量增加了,AMD 的 GPU 核心中的数据存储空间仍然比 Nvidia 要小。Blackwell 的 SM 有一个 256 KB 的存储块,既可用作 L1 缓存,又可用作共享内存。最多可分配 228 KB 用作共享内存。如果分配 164 KB 共享内存,接近 AMD 的 160 KB LDS,Nvidia 仍有 92 KB 可用于 L1 缓存。CDNA 4 与 CDNA 3 一样,每个 CU 都有 32 KB L1 矢量缓存。因此,Blackwell SM 可以拥有更多的软件管理存储,同时仍具有比 CDNA 4 CU 更大的 L1 缓存。当然,AMD 更高的 CU 数量意味着整个 GPU 有 40 MB 的 LDS 容量,而 Nvidia 在 B200 上只有约 33 MB 的共享内存,最大共享内存分配为 228 KB。

系统架构

为了满足海量计算单元阵列的需求,MI355X 在很大程度上采用了与 MI300X 相同的系统级架构。不过,MI355X 确实有一些增强功能。二级缓存可以“回写脏数据并保留行副本”。“脏”是指已在回写缓存中修改,但尚未传播到内存子系统较低级别的数据。当脏行被清除以腾出空间容纳新数据时,其内容将被写回到下一级缓存;如果是最后一级缓存,则写回到 DRAM。


AMD 可能正在寻求在内存子系统负载较低时适时使用写入带宽,以平滑由缓存填充请求和写回操作引起的带宽需求峰值。或者,如果写入的数据可能被系统中的其他线程读取,但预计短期内不会再次被修改,AMD 可能会采取一些特殊措施,让 L2 缓存将一条数据线转换为干净状态。


MI355X 的 DRAM 子系统已升级为使用 HBM3E,相比其前代产品,带宽和容量均有显著提升。这也使 AMD 保持了对 Nvidia 竞争对手的领先优势。Nvidia 的 B200 也使用了 HBM3E,后者似乎也拥有八个 HBM3E 堆栈。然而,B200 的最大容量为 180 GB,带宽为 7.7 TB/s,而 MI355X 的最大容量为 288 GB,带宽为 8 TB/s。当 H100 的 DRAM 容量耗尽时,MI300X 可能比 Nvidia 的旧款 H100 拥有显著优势,而 AMD 很可能希望保持这一优势。

HBM3E 带来的更高带宽也有助于提升 MI355X 的计算带宽比。MI300X 每 FP32 FLOP 的 DRAM 带宽约为 0.03 字节,而 MI355X 则提升至 0.05 字节。相比之下,Blackwell 每 FP32 FLOP 的 DRAM 带宽约为 0.10 字节。虽然 Nvidia 增加了 Blackwell 的末级缓存容量,但 AMD 仍然更依赖大缓存,而 Nvidia 则更依赖 DRAM 带宽。

最后的话

CDNA 2 和 CDNA 3 与前代产品相比进行了彻底的改变。CDNA 4 的变化则更为平淡。与从 Zen 3 到 Zen 4 类似,MI355X 保留了类似的芯片组排列,但计算和 IO 芯片组被替换为改进版本。AMD 并没有改变其总体战略,而是专注于优化 CDNA 3。更少、更高时钟频率的计算单元更易于利用,而更高的内存带宽也有助于提高利用率。更高的矩阵乘法吞吐量也有助于 AMD 在机器学习工作负载方面与 Nvidia 展开竞争。

在某些方面,AMD 在这一代 GPU 上的做法与 Nvidia 颇为相似。从矢量执行的角度来看,Blackwell SM 与 Hopper 基本相同,改进主要集中在矩阵方面。Nvidia 可能认为他们找到了制胜法宝,因为他们过去几代 GPU 无疑都取得了成功。AMD 的 CDNA 3 或许也找到了制胜法宝。MI300A 是 MI300X 的 iGPU 兄弟,它为 TOP500 六月榜单中排名最高的超级计算机提供动力。4在成功的基础上继续发展可能是一种安全且回报丰厚的策略,而 CDNA 4 或许正是如此。

AMD CDNA 4 架构深度解读

GPU 和加速计算彻底改变了数据中心的格局。加速计算最初在科学界被广泛接受,用于补充现有的通用 CPU,以应对地震分析和分子动力学等特定工作负载。在此基础上,加速器不断发展,支持越来越通用的编程语言(例如 C++ 和 Python)以及更多样化的应用。机器学习(尤其是在计算机视觉领域)很早就利用了新的加速器,并催生了深度学习领域,该领域明确依赖 GPU 等加速器来训练和部署神经网络。

在经典科学计算和新兴机器学习及人工智能工作负载之间,GPU 的设计日益注重规模化运行,为全球最大的超级计算机提供动力。基于 Transformer 的神经网络的发现拓展了 GPU 的视野,并最终推动了生成式人工智能的爆炸式增长。生成式人工智能是迄今为止要求最高的应用领域之一,其应用范围远远超出了科学计算,涵盖了消费者和企业用户。

对计算能力和效率的需求如此巨大,以至于架构师不得不竭尽全力,不断重新审视计算领域的基本假设。最初,加速器采用了新的内存模型,但保留了熟悉的数据类型。现在,浮点数值表示法与新算法一起不断发展,以降低精度,从而提高性能、内存占用和能效。与此同时,GPU 在集成度方面也不断突破极限——首先采用先进的封装技术将 HBM 与加速器紧密耦合,现在则使用更先进的封装技术,摆脱单片硅片实现。

AMD 一直走在这场革命的前沿,为 GPU 开发新颖的软件和系统架构,以实现更强大的性能和功能。在软件方面,AMD CDNA 2 架构通过缓存一致性统一了 CPU 和 GPU 计算,为软件生态系统释放了新的应用和机遇。 AMD CDNA 3 架构彻底改变了加速器的构建方式,采用先进的封装技术,实现了异构集成,并将处理器重新划分到十几个不同的芯片组上。

如下图 1 所示,AMD CDNA 4 架构建立在先前 3D 封装技术的基础上,并在异构封装中重新平衡了处理器的元素。每个 AMD Instinct MI350 系列 GPU 集成了 8 个垂直堆叠的加速器复合芯片 (XCD) 和 2 个包含系统基础架构的 I/O 芯片 (IOD),并与 AMD 的 AMD Infinity Fabric 封装技术紧密相连,并连接到 8 个 12-Hi 高带宽内存堆栈 (HBM3E)。XCD 结合了最新的制程技术并支持新的降低精度数据类型,从而提升了 AI 的吞吐量和效率,而重新划分的 IOD 则有助于改善通信和内存流量的延迟和效率。外部方面,AMD Instinct MI350系列产品采用Infinity Fabric技术,在单个节点上直接连接8个GPU。


这种设计提供了多功能性,可快速开发和部署基于 AMD CDNA 4 架构的产品系列,以满足客户多样化的需求——兼顾易用性和极致性能。AMD Instinct MI350 系列包含风冷 (AC) Instinct MI350X GPU,其 1000W 功率采用 OCP UBB8 基板,该基板旨在与上一代 AMD Instinct™ MI325X 平台和系统直接兼容,从而快速部署到现有生态系统中并快速实现价值。为了在无与伦比的密度下实现更高的性能和效率,AMD Instinct MI355X GPU (1400W) 提供直接液冷 (DLC) 平台,同样采用 UBB8 基板,适用于支持更高功率和冷却能力的基础设施。

与上一代 AMD Instinct MI325X GPU 相比,AMD Instinct MI355X GPU 将现有机器学习专用 16 位和 8 位矩阵数据类型的峰值吞吐量几乎提高了一倍,并引入了对其他低精度数值格式的支持,将 FP6/FP4 的 10TFLOP/s 理论峰值与 MI325X 的 FP8 的 2.61 PFLOPS 理论峰值性能相比,性能提高了 3.85 倍。MI350-005 MI355X 还将内存容量提升至 288GB HBM3E,带宽高达 8TB/s,通信带宽超过 1TB/s。 CDNA 4 架构旨在与开源驱动的 ROCm 软件生态系统协同工作,并通过 Kubernetes® 提供卓越的开箱即用科学计算和企业编排功能,并支持领先的 AI 训练和推理堆栈以及对流行生成式 AI 模型的 Day 0 支持。

Chiplet架构

AMD CDNA 3 架构是一次范式转变——它采用了基于芯片组(chiplet-based)的现代方法,充分利用了异构集成技术,并将众多专用芯片组与 Infinity Fabric 架构整合到一个高度优化的计算平台中。与过去几十年占据主导地位的单片架构相比,这是对芯片设计和架构的一次根本性反思,有望为未来数代产品带来性能和可扩展性。

CDNA 4 架构继承了这一革命性基础,并通过精心优化每个组件来提供最佳性能、效率和可制造性,充分展现了这种灵活策略的优势。八个计算芯片组(XCD)受益于最新的制程工艺,并采用台积电 (TSMC) 尖端的 N3P 制程技术实现,其芯片尺寸和占位面积与上一代产品相似,以实现最佳性能和效率。 IOD 中的内存和通信功能主要由大型 AMD Infinity Cache和互连芯片承担,而这些芯片无法有效扩展,无法充分利用最新工艺技术提供的性能。利用异构架构中的独立扩展功能,这些功能保留在台积电高效且经济实惠的 N6 工艺上,但重新平衡了两个大型 IOD(而非四个)的部署,从而优化了性能和能效,同时保持了有利的可制造性。

AMD CDNA 4 计算

AMD CDNA 4 架构凸显了基于 Chiplet 的异构计算平台构建方法的一大优势——每个 Chiplet 都可以使用合适的制程技术,从而实现更高效的演进。加速器复合芯片 (XCD) 包含处理器的计算部分以及对性能最为敏感的缓存层级的最低层。AMD CDNA 4 XCD 采用台积电最新的 N3P 制程技术,充分利用了相比上一代 N5 制程更高的逻辑密度和性能。


如图 2 所示,AMD CDNA 4 架构重新平衡了 XCD,通过提升每个计算单元 (CU) 的功能来提升性能,尤其适用于要求最苛刻的 AI 工作负载——实现对新数据类型的硬件支持,并显著提高矢量和矩阵工作负载的计算吞吐量和效率,如下表 1 所示。

AMD CDNA 4 XCD 中的 CU 数量与上一代相比略有减少,但每个 CU 通过一系列新功能的组合变得更加强大。因此,调度程序、硬件队列和将计算着色器工作组发送到计算单元 (CU) 的异步计算引擎 (ACE) 等全局资源仅需进行少量增强。

每个 XCD 包含 36 个 AMD CDNA 4 计算单元,这些计算单元被组织成四个阵列,每个阵列包含 9 个 CU,其中 32 个处于活动状态,剩下 4 个可能处于禁用状态,以实现高产量和高效的工作频率。与上一代产品一样,L2 缓存会将 XCD 中的所有流量合并,然后散布到连接系统其余部分的 Infinity Fabric 架构。该处理器跨越 8 个 XCD,最多可支持 256 个计算单元——略少于上一代产品,但在某些情况下,与 AMD Instinct MI300 系列 GPU 相比,计算吞吐量翻了一番。

AMD CNDA 4 计算单元架构

如下图 3 所示,AMD CDNA 4 架构计算单元 (CU) 实例化了完整的处理器流水线,能够高度线程化地并行执行标量、矢量和矩阵指令以及数据类型,并拥有包含 L1 数据缓存和显式寻址本地数据共享的内存流水线。AMD CDNA 4 CU 相较于上一代产品略有增强,增强了内存层次结构,并着重于采用新的低精度数值格式,并提升了对机器学习应用至关重要的矢量和矩阵吞吐量,最高可达 3.9 倍 (FP4/FP8)。


由于大多数工作负载将跨越多个计算单元 (CU),因此两个相邻的计算单元共享 64KB、8 路组相联指令缓存,从而有效利用缓存和区域。

AMD CDNA 4 CU 中,矩阵核心是本世代性能提升中最重要的部分,这些核心专注于 AI 和机器学习,不仅增加了对新标准化数值格式的硬件支持,也增加了现有数据类型的原始计算资源。低精度数值格式是提升 AI 性能最有效、最强大的技术之一。较小的数据类型可以提高计算吞吐量,从而更有效地利用有限的数据路径——本质上,在功耗略有提升的情况下,显著提升了计算能力。此外,较小的数据也能更好地利用整个处理器的宝贵资源,例如内存或缓存带宽和容量,通常能够显著提高能效。

在机器学习的早期,单精度浮点 (FP32) 数据很常见,但在过去十年中,人工智能社区采用了 FP16、BF16、INT8 和 FP8 格式来提升性能和效率。这些更紧凑的浮点格式用更少的位数表示张量中的每个数据元素,并为每个张量添加了一个缩放因子,以捕获完整的动态范围并避免下溢和上溢。AMD CDNA 3 计算单元引入了对 OCP 8 位浮点规范中描述的两种 FP8 数据类型变体的支持:一种是用于训练的 2 位尾数和 5 位指数 (E5M2),另一种是用于推理的 3 位尾数和 4 位指数 (E4M3)。

最近,业界围绕 OCP MX 标准中体现的微缩放概念展开了联合,将降低的精度提升到了一个新的水平。微缩放背后的核心概念是让硬件支持一个在张量内的数据元素块(通常为 32 个)之间共享的比例因子,而不是整个张量只使用一个比例因子。与传统的 FP8 相比,微缩放的 MXFP8 格式具有更细的粒度,这使得在 AI 工作负载中,可以在更广泛的张量上使用精度更低的格式。此外,微缩放还为更高的压缩率开辟了道路,并引入了诸如 MXFP6(包含 E3M2 和 E2M3 变体)和 MXFP4(指定 E2M1)等格式。下图 4 显示了最新 AMD CDNA 4 架构支持的部分数值数据格式。


AMD CDNA 4 架构最显著的改进之一在于矩阵核心。顺应行业降低精度的趋势,AMD CDNA 4 计算单元 (CU) 引入了对行业标准微扩展格式(包括 MXFP8、MXFP6 和 MXFP4)的指令和硬件支持。

此外,N3P 工艺提供的额外资源用于将 16 位及更小紧凑数据类型的执行资源增加一倍,如下表 1 所示。这两项改进的结合意味着每个 CU 在单个周期内可执行的运算数量几乎增加了四倍,如下图所示,与上一代 (FP4/FP8) 相比,机器学习能力大幅提升。上一代产品完全硬件支持专有的 TF32 数字格式。

经过与客户和生态系统的广泛讨论,该格式已从硬件中移除,并通过使用 BF16 数据类型的软件仿真来支持。最终结果是,对于低精度 AI 数值数据格式,AMD CDNA 4 架构的计算吞吐量翻了一番,同时大多数模型的精度保持不变。


矩阵核心的增强功能提升了人工智能工作负载中常见的矩阵运算的计算吞吐量——这对于构成现代大型语言模型 (LLM) 基础的 Transformer 尤为重要。人工智能应用通常将矩阵运算的输出馈送到向量激活运算。对于卷积神经网络,通常使用修正线性单元 (ReLU);而在基于 Transformer 的网络中,softmax 是最常见的激活函数。为了与矩阵核心的大幅提升保持一致,超越率也提升了 2 倍,以辅助注意力加速,从而确保均衡的性能曲线。最后,AMD CDNA 4 计算单元还引入了多种数据转换指令,以确保新格式的易用性。

虽然矩阵核心的设计备受关注,但 AMD CDNA 4 架构中的内存层次结构也得到了增强,尤其注重本地数据共享 (LDS) 以及针对基于 Transformer 的神经网络的优化。 AMD CDNA 3 架构及前几代架构中的逻辑数据结构 (LDS) 采用直接寻址结构,包含 32 个存储体,每个存储体包含 512 个 32 位数据条目,总计 64KB 数据。每个存储体可以读写 32 位值,LDS 集成了冲突检测和调度逻辑、复杂的交叉开关和混合单元以及原子执行单元。AMD CDNA 4 架构中的 LDS 大小为 160KB,通过增加存储体数量,容量增加了一倍以上,读取带宽也翻倍至每时钟 256 字节。由于数据复用程度较高,额外的容量和带宽对于提高计算单元 (CU) 中用于矩阵乘法例程的矢量和矩阵执行资源的利用率至关重要。AMD CDNA 4 LDS 也比之前的设计更高效,支持直接从一级数据缓存加载数据,从而减少矢量寄存器的使用和延迟。这两项 LDS 优化对于矩阵乘法尤其重要,而矩阵乘法是现代基于 Transformer 的神经网络的支柱。

每个 AMD CDNA 4 计算单元 (CU) 中的 L1 矢量数据缓存与上一代基本相同,拥有 128B 缓存行和 32KB 容量,并支持 64 路组相联。此外,还有一个共享的 4MB、16 路组相联 L2 缓存,为 XCD 中的所有计算单元 (CU) 提供服务。L2 缓存拥有 16 个并行通道,每个通道每个周期能够执行完整的 128B 缓存行读取和 64B 写入操作。完全一致的 L2 缓存旨在通过写回和写入分配策略,减少从 XCD 溢出并跨越 Infinity Fabric 到达系统其他部分的流量。AMD CDNA 4 架构中的 L2 缓存还进行了一些额外的一致性优化。它现在可以缓存来自 DRAM 的非相干数据,并且可以写回脏数据并保留该行的副本。

AMD CDNA 4 架构内存

AMD CDNA 4 架构的内存层级始于计算单元 (CU),二级缓存 (L2) 充当整个 XCD 通往连接处理器的 AMD Infinity Fabric 网络的网关。内存层级的共享部分(包括 AMD Infinity Cache™ 和内存控制器)位于垂直堆叠在 XCD 下方的 IOD 中。AMD CDNA 3 架构中引入的基于芯片组的异构方法使得每个芯片组的硅片实现能够独立演进,从而最大限度地提高性能,同时提供卓越的可制造性。在 AMD CDNA 4 架构中,XCD 利用最新制程技术的密度来提升处理器的计算性能,这很容易证明增加的成本是合理的。然而,IOD 主要包含诸如 SRAM 和 I/O 之类的组件,这些组件无法从更先进的制程中获益,也无法证明其成本是合理的。


IOD 采用台积电 N6 工艺实现。如上图 5 所示,AMD CDNA 4 架构采用两个较大的 IOD 并直接连接,而非上一代的四个较小的 IOD。这简化了封装内的 Infinity Fabric 网络,从而降低了许多通信模式的延迟并降低了功耗,从而为处理器的其他部分释放了更多空间。IOD 之间更简单的直接连接比 AMD CDNA 3 架构的速度提高了约 14%,从而提升了许多通信模式的性能。

AMD CDNA 4 架构中的 Infinity Cache 在组织结构上基本保持不变。它仍然充当一个共享的 256MB、16 路组相联内存端缓存,并扇出 8 个内存堆栈。对于每个堆栈,Infinity Cache 包含 16 个 64 字节宽的并行通道,以实现高带宽,并与 2MB 的存储数据阵列绑定。AMD CDNA 4 架构中的两个 IOD 均包含四个显著增强的内存控制器。HBM3E 内存接口的运行速度为 8 Gbps,比 AMD Instinct MI325X 快 33% 以上,并提供惊人的 8TB/s 峰值理论内存带宽。MI350-002 同样至关重要的是,每个堆栈的内存容量已提升至 36GB,单个处理器最高可达 288GB,从而满足了 AI 训练和推理领域日益增长的内存需求。

在过去几年中,尖端大型语言模型的参数数量呈爆炸式增长。 2020年年中,OpenAI 首次发布了 GPT3,其参数数量高达 1750 亿,然而到 2024 年底,研究人员已经在尝试使用一万亿甚至更多的参数。在参数数量不断增长的时代,提升内存容量可以为训练高级模型的研究人员释放更多创新和能力。内存容量对于推理也至关重要。LLM 的上下文窗口决定了模型可以处理的输入量,并直接影响用户体验。GPT3 的上下文窗口为 2048 个 token,大约相当于 1500 个单词或几页文本。为了给用户提供更大的灵活性和能力,现代 LLM 提供高达 200 万个 token 的上下文窗口,比大多数书籍的篇幅还要长。但这是有代价的,因为键值缓存的内存使用量会随着上下文窗口的大小线性增长,这凸显了内存容量在推理中的重要性。

AMD CDNA 4 计算和内存分区

与上一代 AMD Instinct MI300X GPU 一样,AMD Instinct MI350 系列 GPU 可在计算和内存两个维度上进行分区。在计算分区方面,AMD CDNA 4 架构系列与上一代类似,可以沿 XCD 线进行空间分区。对于 AI 训练等较大问题,所有 XCD 可以协同处理单个任务。如下图 6 所示,GPU 还可以划分为两个、四个或八个计算分区,每个分区分别包含四个、两个和一个 XCD,从而为较小任务提供完全隔离。例如,单个处理器可以划分为多达八个实例,以同时为较小的推理模型提供服务。


AMD CDNA 4 架构的内存分区与上一代相比发生了显著变化,这主要是由于转向了两个 IOD。AMD CDNA 4 架构可以将内存交错分布在所有八个 HBM 堆栈上,跨越两个 IOD,或者将 288GB 内存划分为两个 144GB 的内存池,每个 IOD 一个。第一种配置称为 NPS1(每插槽数字内存),通常更易于应用程序移植,并且对于内存访问模式极其均匀的工作负载非常有效。在 NPS2 模式下,所有内存流量都停留在单个 IOD 及其关联的 XCD 内,从而减少了在两个 IOD 之间跨越 AMD Infinity Fabric 网络的开销,并改善了延迟、带宽和功耗,从而提升了整体性能和效率。比较两代最高效运行模式下的性能,AMD CDNA 4 中的 DPX+NPS2 和 AMD CDNA 3 中的 QPX+NPS4,可以看出 IOD 重新分区带来的显著进步。高效的 AMD CDNA 4 分区拥有 7.7 倍的峰值计算吞吐量、2.25 倍的内存容量和 2.67 倍的内存带宽,能够以卓越的效率应对更具挑战性的问题。

通信、扩展和系统

AMD Instinct MI350 系列 GPU 旨在满足两类不同的需求。对于某些客户而言,上一代产品的直接兼容升级是理想之选——它能够快速部署,并保留现有的基础设施和生态系统投资。但其他客户则专注于追求最佳性能和效率,并愿意采用功耗和散热需求更高的处理器和系统。为了满足这双重需求,AMD CDNA 4 架构系列沿用了与上一代产品类似的通信和扩展方法,以实现直接兼容,同时进行渐进式改进,以支持最高性能的系统。

AMD CDNA 4 架构包含 8 条 AMD Infinity Fabric 链路,这些链路宽度为 16 位,完全双向,用于单个服务器节点内的程序包间通信。在上一代产品中,这些链路分布在四个 IOD 上,并以 32Gbps 的速率运行。 AMD CDNA 4 架构中的 Infinity Fabric 链路运行速度比上一代提升高达 20%,达到 38.4Gbps,单向总链路带宽达到 76.8GB/s,每个重新分区的 IOD 包含四条链路。MI350-007 每个 GPU 可在节点内提供 >1TB/s 的通信带宽,其中一条 Infinity Fabric 链路配置为 PCIe Gen 5,用于连接存储和网络等 I/O 设备。

AMD Instinct MI350 系列平台:

8 OAM + AMD UBB 节点示例

如下图 7 所示,AMD Instinct MI350 系列的系统架构与上一代产品相同,采用全连接 8 GPU 系统。每个 GPU 使用一条 PCIe®Gen 5 链路连接到主机处理器和 I/O 设备;这种拓扑结构可以灵活地处理服务器节点内的所有通信模式。AMD Instinct MI350 系列沿用 OAM 外形规格,提供 1000W 和 1400W 两种功率版本。前者与之前部署的 AMD Instinct MI325X 代设计兼容,而后者仍然兼容,但需要适应更高的功率和散热要求*。


AMD Instinct MI350 系列 GPU 包含两款不同功率级别的产品。AMD Instinct MI350X 是一款 1000W 的风冷 GPU,通过 UBB8 基板部署,该基板与上一代 AMD Instinct MI325X GPU 系统设计兼容,采用 4 机架单元 (RU) 托盘高度。更高功率的 AMD Instinct MI355X GPU 采用 1400W DLC(直接液冷)解决方案,采用 2RU 托盘高度,专为那些继续采用直接液冷技术以实现更高密度和效率的系统构建者和客户而设计。对于更高密度的解决方案,MI355X 还将提供 1OU 解决方案。


虽然 AMD Instinct MI350 系列各成员在处理器和服务器层面的原始性能差异相对较小,但直接液冷在机架层面却有着巨大的影响,如上图 8 所示。对于现有的 120kW 或 130kW 54U 机架基础设施,AMD Instinct MI350X 平台 (AC) 可容纳多达 8 台服务器,并提供 0.6 EFLOP/s 的 FP8 稀疏计算能力。AMD Instinct MI355X 平台 (DLC) 在合理配置的 200kW 机架中可容纳 16 台服务器,并在同等占用空间内提供约 118% 的计算能力提升。

适用于 AMD INSTINCT GPU 的

AMD ROCm软件堆栈

软件对于加速计算的成功至关重要——它能够轻松部署和管理,并充分利用底层硬件来运行要求最苛刻的应用程序。AMD 软件战略建立在开源基础之上——AMD ROCm 生态系统,它将开发者、客户和整个社区凝聚在一起。这种开源方法让每个人都能洞察复杂精密的堆栈,并根据自身需求进行检查和调整。该战略已得到一些全球规模最大、要求最高的客户的认可和验证,例如百亿亿次级 El Capitan 和 Frontier 超级计算机。反过来,这种采用推动了良性循环,使生态系统有机会快速成熟并扩大规模。

AMD Instinct MI350 系列和整体软件战略的指导原则是注重易用性,同时提供定制化服务。从软件的角度来看,这意味着在编译器、数学库和调试器等基础元素之上构建,以提供高级功能并减少大规模摩擦。这使客户能够快速轻松地管理、训练和部署AI系统,并灵活地应对快速变化的环境,同时还能为那些值得进行更大规模投资的企业提供深度优化。

AMD已采用Kubernetes来编排AI基础架构,使客户能够轻松部署用于大规模训练和推理服务的容器,并以成熟的云或本地企业环境中所期望的安全功能和可靠性进行管理。作为赋能生态系统的一部分,AMD创建了GPU Operator软件包,它通过一套用于节点发现、插件安装、健康检查、故障排除、可观察性等工具增强了Kubernetes。这种云原生方法使AMD能够与生态系统合作伙伴携手,创建一个丰富的容器库,造福整个社区,尤其侧重于生成式AI。

在训练方面,AMD 与 JAX 和 PyTorch 等领先的框架合作,提供优化的 ROCm 支持。ROCm 生态系统包含适用于分布式训练框架的容器,这些框架对于要求最严苛的生成式 AI 应用至关重要,例如 JAX 的 Maxtext,以及 PyTorch 的 Megatron LM 和 Torchtitan。对于开发流程的后期部分,例如微调和其他类似技术,Torchtune 库也已针对 ROCm 进行了优化。这些框架和工具链已提前进行调整,以充分利用 AMD GPU 的架构特性,尤其是大内存容量或 Flash Attention v3 和滑动窗口注意力等关键技术。此外,AMD 还致力于优化一些最广泛使用的开放模型,例如 Meta 的 Llama 系列。

在推理方面,AMD 与领先的服务框架 vLLM 和 SGLang 合作,创建了高度优化的容器,可随时部署生成式 AI 进行大规模推理,包括为最流行的生成式 AI 模型提供 Day 0 支持。vLLM 被推荐为一款出色的通用解决方案,AMD 通过每两周发布一次稳定版本和每周发布一次开发版本来支持该框架。对于代理工作负载、Deepseek 和其他特定用例,SGLang 是首选方案,并每周发布一次稳定版本。除了服务框架之外,AMD 还优化了 Llama 系列、Gemma 3、Deepseek 和 Qwen 系列等领先模型,并提供 Day 0 支持,以便生态系统能够在不断变化的 AI 格局中轻松采用最新模型。

对于追求卓越性能的客户,ROCm 生态系统包含丰富的内核级优化工具,包括端到端分析器、预构建且高度优化的内核和运算符,以及对 Triton 语言的广泛支持。

下表 2 提供了 AMD Instinct MI350 系列 GPU 产品规格和特性。



结论

AMD CDNA 4 架构是第二代百亿亿次级架构,它充分利用了异构集成的优势,并将处理器部署在与 AMD Infinity Fabric 连接的专用芯片组中,从而在 AMD Instinct MI350 系列 GPU 中提供突破性的性能和效率,并具备卓越的可制造性。AMD CDNA 4 架构在上一代架构的基础上,继续采用先进的 3D 封装技术,将 XCD 计算芯片组垂直堆叠在专注于内存和通信的 IOD 芯片组之上,并独立调整每个组件。八个 AMD CDNA 4 XCD 计算芯片组采用最新的制程技术,并添加了新的行业标准低精度数据类型、本地数据共享容量和带宽以及执行资源,从而显著提升了计算吞吐量,尤其适用于生成式 AI。承载内存和通信功能的 IOD 采用与上一代相同的工艺,但被整合为两个芯片组,从而降低了延迟并提升了效率,并通过采用 HBM3E 技术实现了更大的内存容量和带宽。

AMD Instinct MI350 系列通过这些精心的架构优化,将性能和功能提升到了一个全新的水平。 AMD Instinct MI355X 型号可将现有低精度矩阵数据类型的计算吞吐量提升近一倍,并使用全新行业标准低精度 FP4 或 FP6 数据类型,将峰值性能提升 3.9 倍,为生成式 AI 应用实现超过 10TFLOP/s 的计算吞吐量。MI350-005 同时,这些 GPU 将内存容量提升至 288GB HBM3E,并将内存带宽提升 33% 至 8TB/s,并将通信带宽提升至 1TB/s 以上,以应对规模最大、要求最高的科学或 AI 应用。MI350-002 GPU 的精心重新分区进一步提升了最高效分区模式的功能,峰值计算吞吐量提升 7.7 倍,内存容量提升 2.25 倍,内存带宽提升 2.67 倍。

从系统和软件角度来看,AMD Instinct MI350 系列不仅易于使用、部署简便,还能提供最大化性能、效率和密度的选项。基础 8 GPU 节点的系统架构在逻辑上与上一代相同,AMD Instinct MI350X UBB8 基板可与现有系统设计直接兼容,从而重复利用现有生态系统投资,并尽可能简化部署。对于追求最高性能和密度的客户,AMD Instinct MI355X GPU 提供直接液冷规格,可在 200kW 机架中容纳多达 128 个 GPU,提供超过 2.5 ExaFLOP/s 的峰值 FP4 计算能力,并具备稀疏性能。

AMD 对开源 ROCm 生态系统的投入体现了这一理念,在几代对科学计算的卓越支持基础上,为使用 Kubernetes 进行大规模编排提供广泛的开箱即用支持。对于尖端的生成式 AI 工作负载,ROCm 生态系统包含 PyTorch 和 JAX 等框架、Megatron 和 Maxtext 等分布式训练包,以及 vLLM 和 SGLang 等服务框架。AMD 还与领先的 AI 开发者合作,为该生态系统提供最热门的生成式 AI 模型的 Day 0 支持。这些投入共同为客户提供了卓越的开箱即用体验,而丰富的工具链则让开发者能够通过自定义内核和其他优化来追求更高性能。

AMD CDNA 4 架构的灵活性使 AMD 能够突破 AMD Instinct MI350 系列的性能、功能和效率极限,同时提供便捷的部署和采用,帮助客户尽快释放潜力。这确保客户可以信赖 AMD,以合适的解决方案帮助他们应对从科学计算到生成式 AI 等最严苛的工作负载。

https://chipsandcheese.com/p/amds-cdna-4-architecture-announcement

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4068期内容,欢迎关注。

加星标??第一时间看推送,小号防走丢



求推荐


微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示载通盈利能力一般,未来营收成长性优秀。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-