(原标题:解构亚马逊最强芯片,GPU迎来劲敌)
公众号记得加星标,第一时间看推送不会错过。
全球人工智能模型制作者已经等待了一年多,希望能拿到 Trainium3 XPU,这些 XPU 是专门为训练和推理而设计的,是英伟达“Blackwell”B200 和 B300 GPU 以及谷歌“Trillium”TPU v6e 和“Ironwood”TPU v7p 加速器的可靠替代方案。
但当亚马逊网络服务 (AWS) 首席执行官 Matt Garmin 开始谈论预计将于 2026 年底或 2027 年初交付的未来 Trainium4 XPU 时,所有排队购买基于 Trainium3 的 EC2 容量块的用户都开始担心自己会后悔。因为尽管 Trainium3 相较于该公司 Annapurna Labs 芯片设计部门开发的前几代 Inferentia 和 Trainium XPU 已经相当出色,但 Trainium4 似乎将彻底改变插槽的尺寸,不仅带来功能强大的设备,还将带来可扩展性更强的 UltraServer 集群,从而更好地运行专家级和链式推理模型。
在深入探讨 Trainium4 的具体细节之前,我们先来回顾一下 Trainium3 XPU 的基本情况,尤其考虑到这款芯片及其前代产品 Trainium2 的许多技术规格直到最近才公布。让我们先来看看 Garmin 在本周拉斯维加斯 re:Invent 2025 大会开幕式上发表主题演讲时提到的 Trainium3 规格表:
这是AWS去年同期展示的幻灯片的更新版,其中预览了AWS愿意透露的三项数据。Tranium3采用了台积电的3纳米制程工艺,比我们大多数人认为Annapurna Labs用于Tranium2芯片的5纳米技术有所改进。Tranium3预计可提供两倍的计算能力(这可能意味着很多不同的东西),并提供40%的能效提升(由于似乎没有人知道Tranium1、Tranium2或Tranium3的功耗,因此这并非一个有价值的指标)。但显然,制程工艺的改进主要是为了降低功耗,而不是为了在芯片中塞入新功能,而插槽尺寸的增大则是为了提升性能,最终每瓦性能净提升了40%。
亚马逊销售基于 Tranium2 的常规服务器实例以及在共享内存域中总共有 16 个 Trainium3 插槽的 UltraServer 集群配置,但到目前为止,仅交付了在单个内存域中具有 64 个 Tranium3 的 Trainium3 UltraServer。
与搭载于 AWS 的 Trn3 UltraServer 相比,Trn3 UltraServer 的整体计算能力提升了 4.4 倍,这与其 XPU 数量少四倍的 Trn2 UltraServer 相比,可谓意义重大。据 Garmin 称,最新的 UltraServer 的总 HBM 内存带宽是 Trn2 UltraServer 的 3.9 倍,而对于那些担忧推理成本(这是 GenAI 商业化的关键因素)的用户来说,更重要的是,其每兆瓦的计算能力可以产生五倍的token。
以下是 Garmin 为此项性能声明提供的帕累托曲线,该曲线显示了 Y 轴上每兆瓦输出token数与以每秒每用户token数表示的输出交互性之间的相互作用:
要想在2025年及以后获得推理业务的成功,关键就在于如何提升并扩展这条曲线。这组图表对比了运行OpenAI GPT-OSS 120B模型的Trn2 UltraServer集群和Trn3 UltraServer集群。
该图表还显示(但 Garmin 没有提及),如果交互性对你的推理工作量很重要,那么在消耗相同能量的情况下,你可以获得大约高一个数量级的交互性提升。
在 Trainium2 实例在其云上逐步部署的过程中,AWS 更新了此 XPU 的规格,我们也找到了一些 Trainium3 的规格,这消除了一些谜团,并填补了许多关于 Trainium 插槽中组件如何堆叠以构成每个后续 XPU 的空白。
让我们从神经元核心开始,逐步向外扩展。
所有 NeuronCore 设计都将四种不同的计算单元集成到核心中,这与 CPU 核心长期以来混合使用整数(标量)和向量单元的做法非常相似,有时(例如 Intel Xeon 5 和 6 以及 IBM Power10 和 Power11)还会配备张量单元。从 Trainium 系列开始,Annapurna Labs 在架构中添加了集体通信核心(CC-Core),用于处理高性能计算 (HPC) 和人工智能 (AI) 工作负载中常见的集体操作,因此实际上共有五种计算单元。
仅在 Inferentia1 芯片中使用的 NeuronCore-v1 架构包含一个用于整数运算的标量引擎(两个整数输入和一个整数输出)、一个用于向量运算的向量引擎(两个浮点输入和一个浮点输出)以及一个用于张量运算的张量引擎(多个矩阵浮点输入和一个矩阵浮点输出)。
根据 AWS 文档,NeuronCore-v1 中的标量引擎每个时钟周期可以处理 512 次浮点运算,并支持 FP16、BF16、FP32、INT8、INT16 和 INT32 数据类型。(我们认为 AWS 的本意是它支持 512 位数据)。文档还指出,向量引擎每个时钟周期可以处理 256 次浮点运算(同样,我们认为这是 256 位数据),并且也支持 FP16、BF16、FP32、INT8、INT16 和 INT32 数据格式。您可以根据数据宽度以及每个单元可以容纳的数据量来计算每个时钟周期的运算次数。
NeuronCore-v1 的 TensorEngine 的维度从未公开,但我们知道它可以处理 FP16、BF16 和 INT8 输入以及 FP32 和 INT32 输出,并可提供 16 万亿次浮点运算的 FP16 或 BF16 张量处理。
在讨论了第一个 NeuronCore-v1 设计之后,让我们把它们全部并排摆放,看看我们认为 Trainium4 可能达到的水平:
AWS 于 2020 年 12 月在 re:Invent 大会上开始讨论 Trainium1,并花了两年时间才全面投产。考虑到这是亚马逊首款自主研发的数据中心级训练加速器,这样的进度也情有可原。我们认为 Trainium1 采用的是台积电 7 纳米工艺制造;已知它拥有 550 亿个晶体管,运行频率为 3 GHz。这款芯片与之后于 2023 年 4 月上市的 Inferentia2 芯片采用了相同的 NeuronCore-v2 架构,后者采用了 5 纳米工艺,晶体管数量大致相同,但针对推理工作负载进行了一些调整,例如 NeuronLink 芯片互连端口的数量减少了一半。
随着 Trainium2 于 2023 年 11 月发布,并于 2024 年 12 月开始量产,AWS 转向了 NeuronCore-v3 架构,并停止生产 Inferentia 芯片,因为推理过程开始变得越来越像训练。Trainium2 的每个插槽核心数增加了四倍,单个内存域中的 NeuronCore 总数增加了 16 倍,因为每个实例的插槽数也增加了四倍。据我们所知,AWS 还将 Trainium2 的时钟频率提升了,同时将制程从 Trainium1 的 7 纳米缩小到 5 纳米。有趣的是,每个 NeuronCore 的峰值标量和向量性能在 v3 中下降了约 60%,峰值张量吞吐量下降了 12%。但AWS为该芯片的张量运算增加了1:4稀疏度支持,再加上核心数量的增加,使得Trainium2在FP16或BF16精度下的有效吞吐量比Trainium1提升了3.5倍。事实上,NeuronCore-v3支持多种不同的稀疏度模式:4:16、4:12、4:8、2:8、2:4、1:4和1:2。
三个计算单元共享的 NeuronCore-v3 的 SRAM 内存容量提升至每个核心 28 MB,但我们尚不清楚具体提升幅度。HBM 内存容量最终提升至 96 GB,提升了 3 倍,带宽也提升了 3.5 倍,达到 2.9 TB/秒。可以说,这是首款具有竞争力的 Trainium 芯片,Anthropic 一直使用 Trainium2 设备进行模型开发和推理,并且 AWS Bedrock 模型服务的大部分推理工作也由 Trainium 完成,这并非巧合。我们推测,Garmin 在主题演讲中提到的数百万台 Trainium 设备中,大部分是 Trainium2 设备。
这就引出了 Trainium3,它现在已在 UltraServer 实例中批量交付。Trainium3 设备的核心是 NeuronCore-v4 架构——没错,如果核心名称与设备名称一致就更好了——它带来了一些重大改进。首先,矢量引擎经过调整,可以快速进行指数函数计算,其性能是标量引擎执行此任务的 4 倍,而这项任务是 GenAI 模型自注意力算法的一部分。其次,FP16 和 BF16 数据格式可以量化为 MXFP8 格式,AWS 表示这对于 GenAI 模型中多层感知器 (MLP) 层之间的数据量化非常有用。NeuronCore-v3 设计还将每个核心的 SRAM 容量提升至 32 MB。 Trainium2 和 Trainium3 之间的时钟速度似乎只有名义上的变化,没有显著变化,但该设备最大的变化是 NeuronLink-v4 XPU 互连端口的带宽翻了一番,达到 2.5 TB/秒,HBM 内存容量增加了 1.5 倍,达到 144 GB,HBM 带宽增加了 1.7 倍,达到 4.9 TB/秒。
我们认为 Trainium3 设计的改进旨在更好地平衡计算、内存和互连,从而提升 Trainium3 插槽的实际性能,而非其理论峰值性能。Trn3 Gen1 UltraServer 的内存域与 Trainium2 相同,仍为 64 个设备,但目前已上市的 Trn3 Gen2 UltraServer 的内存域已扩展至 144 个插槽。这使得可用于 AI 训练或推理任务的核心数量增加了 2.25 倍。
这就引出了 Trainium4,预计将于明年这个时候开始推出。
我们推测,AWS 将采用名为 NeuronCore-v5 的架构,为 Trainium 处理添加完整的 FP4 支持,而不仅仅是将 MXP4 数据塞进张量的 FP8 插槽中,造成大量空间浪费。Garmin 在主题演讲中表示,通过采用 FP4 原生格式,Tranium4 的性能将是 Tranium3 的 6 倍,这意味着 FP8 处理能力将提升 3 倍。Garmin 还表示,Tranium4 的 HBM 内存容量将是 Tranium 3 的 2 倍,HBM 带宽将是 Tranium 3 的 4 倍。
在上面的巨型表格中,我们试图弄清楚 Trainium4 可能是什么样子,以及如何进一步扩展一组耦合的 Trainium4 设备的内存域。
实现这一目标有很多不同的途径,我们认为AWS最好的选择是采用2纳米工艺以节省一些功耗,或者继续使用3纳米工艺以节省一些成本,但这样会制造出尺寸稍大、发热量稍高的XPU。这很难抉择,但我们认为AWS最终会倾向于采用2纳米蚀刻工艺来开发Trainium 4。
如果你看一下 Garmin 上面的图表,你会发现它表明 Tranium4 将同时支持设备上的 NVLink 和 UALink 端口——Nvidia 曾大肆宣传 AWS 采用 NVLink 技术,但我们猜测 AWS 将会推出带有 NVLink 端口的 Graviton 系列芯片,并获得 Nvidia 一直不愿提及的功能:将定制 CPU 和定制 XPU 通过 NVLink 端口和 NVSwitch 内存交换结构连接到一个巨大的共享内存域。迄今为止,Nvidia 一直允许客户使用连接到 Nvidia GPU 的定制 CPU 或定制 XPU,但尚未允许第三种选择。
我们认为AWS采购的GPU数量足够多,因此它有能力提出这样的要求并获得相应的回报,而且价格也应该合理。我们还认为AWS会支持Nvidia的NVFP4数据格式以及用于FP4处理的MXFP4格式,这很可能是双方交换条件的一部分,目的是为了让在Tranium4芯片上进行的工作更容易地转移到Nvidia的“Blackwell”和“Rubin”GPU上。当然,这些都只是我们的猜测。我们还认为AWS希望能够将这些GPU接入到它自己的机架中,而这些机架本质上将是Nvidia机架的克隆版。
但值得注意的是,Garmin 的上图也提到了 UALink。AWS 仍在权衡各种方案,无疑希望 Tranium4 封装采用芯片组架构,以便将 NVLink 端口替换为 UALink 端口,并采用机架式设计,以便在 UALink 交换机上市时(或许在明年晚些时候)将其替换为 NVSwitch 交换机。NeuronLink-v5 可能经过调整以兼容 UALink 2.0,而这些交换机将由 Annapurna Labs 生产,而不是 Astera Labs、Upscale AI、Marvell、Cisco Systems 或其他提供可扩展互连 ASIC 的公司生产。
要在相同或略微更小的散热范围内获得三倍性能的最简单方法是,将核心数量增加三倍,并保持时钟频率基本不变,同时采用 2 纳米制程工艺。如果晶体管尺寸缩小更多(例如台积电的 1.6 纳米 A16 工艺),则可以略微降低散热或略微提高时钟频率。我们的建议是充分利用散热优势,保持其他参数不变,就像 AWS 在 Trainium2 和 Trainium3 之间所做的那样,只需将核心数量增加三倍即可。
如果将核心数量增加 3 倍,达到每个插槽 24 个核心,并可能分布在四个芯片组上,那么在保持精度不变的情况下,性能将提升 3 倍;如果将 FP8 降级到 FP4,那么每个插槽的性能将提升 6 倍。
现在有趣的地方来了。如果你将每个系统的设备数量也翻倍至 288 个(与 Nvidia 的做法一致),那么你可以在 Trainium4 UltraServer 集群中获得 6,912 个 NeuroCore,所有这些 NeuroCore 都位于一个内存域中,并拥有 1,944 TB 的 HBM 内存。
当然,这与谷歌能够在单个内存域中部署的 9,612 个 Ironwood TPU v7p XPU 相比,简直是小巫见大巫……但它比目前市面上销售的 Trn2 Gen2 UltraServer 集群性能高出 13.5 倍。
https://www.nextplatform.com/2025/12/03/with-trainium4-aws-will-crank-up-everything-but-the-clocks/
(来 源 : 编译自 nextplatform )
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4248期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
