首页 - 财经 - 产业观察 - 正文

解读英伟达的最新GPU路线图

关注证券之星官方微博:

(原标题:解读英伟达的最新GPU路线图)

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自nextplatform,谢谢。

高科技公司总是有路线图。无论他们是否向公众展示,如果他们处于早期阶段,准备在华尔街出售一些股票以赚钱(确切地说是上市),或者与有兴趣购买平台(而不仅仅是解决当前问题的点产品)的关键客户交谈,他们总是会向关键投资者展示这些路线图。

当你投资于每台机架价值数百万美元的设备时,你希望知道你购买的是一种能够在未来持续提供容量和性能改进的方法。因为如果有什么企业不喜欢的东西,那就是它在关键应用程序上遇到了性能或容量上限,不得不等待摩尔定律的出现来解决这个问题。

在芯片及其封装和系统制造难度越来越大的市场中,路线图的作用在于降低技术规划和采用的风险。出于这个原因,IT 公司(尤其是芯片制造商)不愿意公开其路线图。但有时,当风险足够高时,IT 公司别无选择,只能公开路线图,向客户和竞争对手展示未来道路上的里程碑。

当 Oracle 收购 Sun Microsystems 时,它制定了一份五年路线图,并且基本上一直沿用。当 GPU 加速计算在 2010 年起飞时,GPU 技术大会刚刚开始,与本周涌向圣何塞的 25,000 名与会者相比,与会人数少了一个数量级,Nvidia 制定了一份四年路线图,该路线图在 2013 年进行了修订,对一些功能进行了重新调整。当 AMD 想要在几年中断后重返服务器 CPU 领域时,它制定了一份持续了几年的路线图,但它只公开谈论了其芯片的N代和N+1代,就像现在一样。

Nvidia 在很大程度上拥有 AI 训练,并且如今在 AI 推理方面占有很大的份额,尤其是基础和推理模型。所以你可能会认为路线图上没有具体信息。但 Nvidia 也让世界上很多人想知道对 AI 计算的需求是否最终会减弱,或者至少会用更便宜的替代品来满足。此外,作为其最大客户的所有超大规模和云构建者也在构建自己的 CPU 和 AI 加速器;公开的路线图是为了提醒他们 Nvidia 致力于构建比他们更好的系统——并让我们都知道,这样我们就可以跟踪谁在实现他们的里程碑,谁没有。

Nvidia 的路线图非常宏大,它拥有 GPU、CPU、纵向扩展网络(用于跨 GPU 和有时 CPU 共享内存的内存原子互连)和横向扩展网络(用于更松散地将共享内存系统相互连接)。它还有 DPU,即具有本地化 CPU 和有时 GPU 处理的高级 NIC,以下路线图中未显示这些产品:


Quantum 系列 InfiniBand 交换机的容量增长也同样不尽如人意,也没有入选。对于人工智能领域来说,InfiniBand 的重要性越来越低,因为人工智能领域希望能够进一步扩展,而基于 InfiniBand 的相对扁平的网络层次结构则无法实现这种扩展。这种古老而具有竞争力的网络协议以及运行该协议的交换机将在未来许多年内用于 HPC,但大多数企业以及超大规模企业和云构建者都希望回到仅使用以太网的网络中。

X 轴上的时间有点不准确,这是故意为之。“Blackwell” B100 和 B200 GPU 加速器是去年发布的,而不是今年,第五代 NVLink 端口和第四代 NVSwitch 也是如此,它们以 1.8 TB/秒的速度驱动 NVLink 端口。“Grace” CG100 Arm 服务器处理器于 2022 年 5 月发布,并于 2023 年初开始与“Hopper” H100 GPU 加速器一起出货,然后于 2024 年底与 H200 内存扩展踢球器(Nvidia 今天可能称之为“Hopper Ultra”)一起出货。Spectrum-X 网络平台核心的 Spectrum 5 以太网交换机 ASIC 是去年推出的,但现在正在批量出货。

可以这么说,如果该路线图是谈论产品发布还是产品出货,那么它可能更加精确。其目的是让客户和投资者了解 Nvidia 产品将如何发展,以满足 Nvidia 联合创始人兼首席执行官 Jensen Huang 坚信的市场需求,因为思维链模型(通常称为推理模型)对推理的计算需求异常巨大且出乎意料,因此市场将不断扩大。

事实证明,思维更像是一位老人自言自语,而不是幼儿园小朋友脱口而出脑海中浮现的第一个答案。而且这需要的计算量至少是任何人想象的 100 倍。所以,朋友们,这种轻松的生活方式将继续下去,但方式可能与你想象的略有不同。

我们才刚刚开始研究推理模型和物理人工智能——不同类型的模型可以理解世界的物理,一旦给它们提供机器人宿主,它们就可以操纵世界上的物体。


使用 GB300 NVL72,Blackwell Ultra B300 GPU 被换入机架式系统,其机架代号为“Oberon”,具有水平计算和网络滑轨。与 B100 和 B200 一样,B300 在单个 SXM6 插槽中拥有一对受限光罩的 GPU。目前我们还没有关于这款 B300 的大量数据,但我们知道它不仅内存容量增加了 50%,而且 FP4 性能也增加了 50%,达到 15 千万亿次浮点运算(在密集矩阵上),而 B100 和 B200 为 10 千万亿次浮点运算。因此,B300 不仅仅是内存升级,而且看起来时钟速度也提高了,并且可能还增加了活动流式多处理器的数量。(我们会尽快找到答案。明天将发布架构简报。)

综上所述,GB300 NVL72(应该再次称为 GB300 NVL144,因为机架中有 144 个 GPU 芯片,黄仁勋也承认了这一点)拥有 1,100 petaflops 的密集 FP4 推理性能和 360 petaflops 的 FP8 训练性能,比目前正在出货的 GB200 NVL72 机器高出 50%。GB300 NVL72 将于 2025 年下半年上市。

用于以太网和 InfiniBand 的 ConnectX-8 SmartNIC 运行速度为 800 Gb/秒,也将于今年晚些时候推出,其速度是之前推出的 ConnectX-7 SmartNIC 中 400 Gb/秒端口的两倍。

2026 年下半年 - 大约是 GB300 NVL72 机器发货一年后 - CPU 和 GPU 都将得到巨大提升,其计算引擎以研究银河系旋转并发现宇宙充满暗物质的天文学家 Vera Rubin 的名字命名。

“Vera” CV100 Arm 处理器(我们之所以这样称呼它,是因为我们喜欢逻辑命名约定,就像 Nvidia 过去那样)将拥有 88 个定制 Arm 内核,而这一次 Nvidia 为内核添加了同步多线程,以获得 176 个线程。CPU 和与其相连的 GPU 之间的 NVLink C2C 链接将翻倍至 1.8 TB/秒,与 Blackwell GPU 上当前的 NVLink 5 端口速度相匹配。根据上图的放大图,我们强烈怀疑 Vera 芯片将具有单片核心芯片和单个 I/O 芯片。看起来 Vera CPU 的主内存将略大于 1 TB,如果我们必须猜测的话,可能是 LPDDR6。

“Rubin” R100 GPU 加速器将配备两个 SXM7 插槽中的受限 GR100 GPU,并配备 288 GB 的 HBM4 内存。因此,容量与 B300 Blackwell Ultra 相同,并且与 B300 一样拥有 8 个 HBM 堆栈。但是通过迁移到 HBM4 内存,带宽将跃升 62.5%,达到 13 TB/秒,跨越这 8 个 HBM 堆栈。

让我们深入研究其中的每一个,它们的主要特征在于其计算引擎和 GPU 加速器。

最新平台基于“Blackwell” B300 GPU(也称为 Blackwell Ultra),旨在处理超大规模 AI 推理工作负载以及 AI 训练。B300 将每个 GPU 上的 HBM3E 容量提升 50% 至 288 GB,这是通过迁移到 DRAM 芯片的十二高堆栈(路线图中为 12S)来实现的,而 B100 和 B200 使用的八高堆栈(8S)最高可达 192 GB。Blackwell 和 Blackwell Ultra GPU 中使用的 HBM3E 内存的带宽保持不变,因为堆栈数量保持不变。

在 GB200 NVL72 机架中(黄仁勋承认应该将其称为 NVL144,因为它实际上是单个 SXM6 插槽中的两个不同的 GB100 GPU 芯片),有 36 个 Grace CPU,每个有 74 个内核,每个 Grace 都有一对 B200 挂在上面,总共有 72 个 GPU。CPU 和 GPU 上的 NVLink 5 端口为这三个计算引擎提供了一个共享内存池,另一组 18 个 NVSwitch 4 交换机创建了一个共享 GPU 内存池,大部分实际的 AI 工作都在这里完成。


Rubin GPU 插槽将能够以 FP4 精度处理 50 千万亿次浮点运算——我们不知道它是否支持密集或稀疏矩阵,但我们认为它可能支持密集,因为在上面图表的其他地方,Nvidia 表示机架规模系统将以 FP4 精度进行推理,以 FP8 训练进行训练,以 1.2 千万亿次浮点运算,这是今年晚些时候推出的 GB300 NVL72 系统的 3.3 倍。这款 VR300 NVL144 系统的性能将是当前 GB200 NVL72 的 5 倍,而 GPU 芯片和 CPU 芯片的物理数量相同。

Vera-Rubin NVL144 系统中的性能将通过将 NVLink 7 端口加倍和 NVSwitch 6 交换机切换至 3.6 TB/秒来平衡。

2027 年下半年,GPU 将升级到“Rubin Ultra”,这将把四个受限于光罩的 GPU 芯片放入一个插槽中(可能称为 SXM8),该插槽拥有 100 petaflops 的 FP4 性能和 1 TB 的 HBM4E 堆叠内存。去年的路线图表明,Rubin Ultra GPU 将有 12 个 HBM4E 内存堆栈(12S),但如果您放大本文顶部的新路线图,您会看到它显示 16S,大概是 16 个内存堆栈。


人们很容易认为 Rubin Ultra GPU(大概称为 R300)中的每个 HBM4E 堆栈都将堆叠十几个 DRAM,但计算起来却行不通。但如果 DRAM 的容量为 8 GB,并且您有 16 个堆栈,并且它们有 8 个高,那么您将获得 1,024 TB 的内存。所以现在我们知道了。

命名约定中 NVL 后面的数字表示机架中有多少个 GPU 芯片,因此 576 个芯片除以每个 SXM8 插槽 4 个芯片意味着有 144 个 GPU 插槽,这是上述 GB200、GB300 和 VR200 系统的两倍。每个 CPU 插槽有两个 GPU 插槽,该架构将在一个机架中拥有 72 个节点,每对 GPU 插槽有一个 CPU 插槽,与以前一样。

Vera Rubin Ultra VR300 NVL576 系统使用代号为“Kyber”的新型液冷机架,其组件看起来就像过去的商用刀片服务器一样垂直堆叠。它看起来有八个垂直刀片托架,每个托架有 18 个刀片,我们猜测每个刀片都是一个节点。Kyber 机架的前面似乎没有任何网络,所以我们认为可能所有网络都在机架后面,而且,我们认为这可能是 Nvidia 将硅光子学放在 GPU 上并通过交换结构将它们相互连接起来的点,这将比使用铜线(如当前的 GB200 系统)更容易、更省力。但我们刚刚对 Buck 进行了视频采访,他证实,扩展网络将保留在铜线上,包括 Kyber 机架。

事情是这样的。2027 年下半年推出的 VR300 NVL576 的性能将是目前正在加速的 GB200 NVL72 系统的 21 倍。即在 FP4 精度下,AI 推理密集矩阵的每秒 15 百亿亿次浮点运算,以及 AI 训练的每秒 5 百亿亿次浮点运算。机架规模 VR300 NVL576 的机架内 144 TB HBM4E 内存的带宽为 4.6 PB/秒,并且将拥有另外 365 TB 的“快速内存”(可能是 LPDDR6)。GPU 将使用 144 个 NVSwitch 交换机通过 NVLink 7 端口进行连接,端口带宽可能翻倍至 7.2 TB/秒。该机架将配备 576 个 Rubin GR100 GPU 芯片、2,304 个内存芯片(容量为 150 TB)和 4,600 PB/秒的总带宽。它将配备 576 个 ConnectX-9 NIC(端口速率为 1.6 Tb/秒)和 72 个 BlueField DPU(代号未知)。

最后,在 2028 年,“费曼”一代 GPU 的问世将再次让一切重现。费曼 GPU 以著名而机智的物理学家理查德·费曼 (Richard Feynman) 的名字命名。费曼参与了曼哈顿计划,在量子物理学方面做出了杰出贡献,发明了纳米技术,破解了玛雅象形文字代码,还演奏了一套出色的邦戈鼓。费曼 GPU 将与 Vera CPU 和 3.2 Tb/秒 ConnectX-10 NIC、204 Tb/秒 Spectrum 7 以太网交换机以及 7.2 TB/秒 NVSwitch 8 交换机配对使用。

这就是您制定路线图的方式。

https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4069期内容,欢迎关注。


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

fund

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示机器人盈利能力一般,未来营收成长性较差。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-