谷歌最强TPU正式上市，打造100000芯片集群_财经频道

（原标题：谷歌最强TPU正式上市，打造100000芯片集群）

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自谷歌，谢谢。

谷歌刚刚发布了其第六代人工智能加速器芯片Trillium，声称其性能改进可能会从根本上改变人工智能开发的经济性，同时突破机器学习的极限。

这款定制处理器为谷歌新发布的Gemini 2.0 AI 模型的训练提供了动力，其训练性能是前代产品的四倍，同时功耗却大大降低。这一突破来得正是时候，因为科技公司竞相构建越来越复杂的 AI 系统，而这些系统需要大量的计算资源。

谷歌首席执行官 Sundar Pichai 在一篇公告中解释说：“TPU 为 Gemini 2.0 的训练和推理提供了 100% 的支持”，并强调了该芯片在公司 AI 战略中的核心作用。部署规模是前所未有的：谷歌已将超过 100,000 个 Trillium 芯片连接到一个网络结构中，创造了相当于世界上最强大的 AI 超级计算机之一。

Trillium 的规格代表了多个维度上的重大进步。与上一代产品相比，该芯片的峰值计算性能提高了 4.7 倍，同时高带宽内存容量和芯片间互连带宽也增加了一倍。或许最重要的是，它的能源效率提高了 67%——这是数据中心应对 AI 训练巨大电力需求的关键指标。

Google Cloud 计算和 AI 基础设施副总裁 Mark Lohmeyer 表示：“在训练 Llama-2-70B 模型时，我们的测试表明 Trillium 实现了从 4 片 Trillium-256 芯片组到 36 片 Trillium-256 芯片组的近乎线性的扩展，扩展效率高达 99%。”考虑到这种规模的分布式计算通常面临的挑战，这种扩展效率水平尤其令人瞩目。

Trillium 的商业意义不仅限于原始性能指标。谷歌声称，与上一代芯片相比，该芯片每美元的训练性能提高了 2.5 倍，有可能重塑人工智能开发的经济性。

这种成本效益对于开发大型语言模型的企业和初创公司来说可能特别重要。Trillium 的早期客户 AI21 Labs 已经报告了显著的改进。AI21 Labs首席技术官Barak Lenz在公告中指出：“规模、速度和成本效益方面的进步非常显著。”

谷歌在其 AI 超级计算机架构中部署 Trillium 展示了该公司对 AI 基础设施的综合方法。该系统将超过 100,000 个 Trillium 芯片与每秒 13 PB 带宽的 Jupiter 网络结构相结合，使单个分布式训练作业能够扩展到数十万个加速器上。

谷歌人工智能工作室产品经理 Logan Kilpatrick 在开发者大会上表示：“闪存使用量的增长已经超过 900%，这是令人难以置信的。”这凸显了人工智能计算资源需求的快速增长。

Trillium 的发布加剧了人工智能硬件领域的竞争，而Nvidia凭借其基于 GPU 的解决方案在该领域占据主导地位。虽然 Nvidia 的芯片仍然是许多人工智能应用的行业标准，但谷歌的定制硅片方法可以为特定工作负载带来优势，特别是在训练非常大的模型方面。

行业分析师认为，谷歌对定制芯片开发的大规模投资反映了对人工智能基础设施日益增长的重要性的战略押注。该公司决定向云客户提供 Trillium，表明其希望在云人工智能市场上展开更积极的竞争，而该公司在该市场上面临着来自Microsoft Azure和Amazon Web Services的激烈竞争。

Trillium 的功能意义远不止直接的性能提升。该芯片能够高效处理混合工作负载（从训练大量模型到为生产应用程序运行推理），这预示着未来 AI 计算将变得更加便捷且更具成本效益。

对于更广泛的科技行业来说，Trillium 的发布标志着人工智能硬件霸主地位的竞争进入了一个新阶段。随着各家公司不断突破人工智能的极限，大规模设计和部署专用硬件的能力可能成为越来越重要的竞争优势。

谷歌 DeepMind 首席执行官 Demis Hassabis 在公司博客文章中写道：“我们仍处于人工智能发展的早期阶段。拥有合适的基础设施（包括硬件和软件）对于我们继续突破人工智能的界限至关重要。”

随着行业向更复杂的 AI 模型发展，这些模型可以自主行动并跨多种信息模式进行推理，对底层硬件的需求只会增加。借助 Trillium，Google 已表明其打算继续走在这一变革的前沿，投资于将为下一代 AI 进步提供动力的基础设施。

第六代 TPU， Trillium 正式上市

能够处理文本和图像等多种模态的大型 AI 模型的兴起带来了独特的基础设施挑战。这些模型需要巨大的计算能力和专用硬件才能有效地处理训练、微调和推理。十多年前，谷歌开始开发定制的 AI 加速器张量处理单元 (TPU)，以满足日益增长的 AI 工作负载需求，为多模态 AI 铺平了道路。

今年早些时候，我们发布了 Trillium，这是我们的第六代 TPU，也是迄今为止性能最高的 TPU。今天，它已正式面向 Google Cloud 客户推出。

我们使用 Trillium TPU 来训练新的Gemini 2.0，这是 Google 迄今为止功能最强大的 AI 模型，现在企业和初创公司都可以利用同样强大、高效和可持续的基础架构。

Trillium TPU 是 Google Cloud 的 AI Hypercomputer 的关键组件，这是一种突破性的超级计算机架构，采用性能优化的硬件、开放软件、领先的 ML 框架和灵活的消费模型的集成系统。作为 Trillium TPU 普遍可用的一部分，我们还对 AI Hypercomputer 的开放软件层进行了关键增强，包括对 XLA 编译器和 JAX、PyTorch 和 TensorFlow 等流行框架的优化，以在 AI 训练、调整和服务方面实现领先的性价比。此外，使用大量主机 DRAM（补充高带宽内存或 HBM）进行主机卸载等功能可提供更高级别的效率。AI Hypercomputer 可让您从前所未有的每个 Jupiter 网络结构部署超过 100,000 个 Trillium 芯片中获得最大价值，具有13 PB/秒的对分带宽，能够将单个分布式训练作业扩展到数十万个加速器。

目前，AI21 Labs 等客户正在使用 Trillium 为其客户更快地提供有意义的 AI 解决方案：

“在 AI21，我们不断努力提高 Mamba 和 Jamba 语言模型的性能和效率。作为自 v4 以来的 TPU 长期用户，我们对 Google Cloud 的 Trillium 的功能印象深刻。规模、速度和成本效益方面的进步非常显著。我们相信 Trillium 对于加速我们下一代复杂语言模型的开发至关重要，使我们能够为客户提供更强大、更易于访问的 AI 解决方案。” - Barak Lenz，AI21 实验室首席技术官

以下是 Trillium 相对于上一代产品的一些主要改进：

训练效果提高 4 倍以上
推理吞吐量提高 3 倍
能源效率提高67%
每块芯片的峰值计算性能显著提升 4.7 倍
高带宽内存 (HBM) 容量加倍
芯片间互连 (ICI) 带宽加倍
单个 Jupiter 网络结构中有 100K 个 Trillium 芯片
每美元可将训练性能提高 2.5 倍，每美元可将推理性能提高 1.4 倍
这些增强功能使 Trillium 能够在各种 AI 工作负载中表现出色，其中包括：
扩展 AI 训练工作负载
训练 LLM，包括密集模型和混合专家 (MoE) 模型
推理性能和收集调度
嵌入密集型模型
提供训练和推理性价比

让我们看一下 Trillium 在每种工作负载下的表现。

扩展 AI 训练工作负载

训练像 Gemini 2.0 这样的大型模型需要大量的数据和计算。Trillium的近线性扩展能力可以有效地将工作负载分配到通过 256 芯片Pod内的高速芯片间互连和我们最先进的Jupiter 数据中心网络连接的大量 Trillium 主机上，从而使这些模型的训练速度显著加快。这是通过 TPU 多切片和用于大规模训练的全栈技术实现的，并通过Titanium进一步优化，Titanium 是一个动态数据中心范围的卸载系统，范围从主机适配器到网络结构。

Trillium 通过部署 12 个由 3072 个芯片组成的 pod 实现了 99% 的扩展效率，并通过 24 个 pod（包含 6144 个芯片）对 gpt3-175b 进行预训练实现了 94% 的扩展效率，即使在跨数据中心网络运行以预训练 gpt3-175b 时也是如此。

图 1. 源数据：Google 基准和 MLPerf 4.1。nx Trillium-256 对应于一个 ICI 域中带有 256 个芯片的 n 个 Trillium Pod

虽然在上图中我们使用 4 片 Trillium-256 芯片Pod作为基线，但使用 1 片 Trillium-256 芯片Pod作为基线，在扩展到 24 个Pod时仍可实现超过 90% 的扩展效率。

在训练 Llama-2-70B 模型时，我们的测试表明，Trillium 实现了从 4 片 Trillium-256 芯片组到 36 片 Trillium-256 芯片组的近线性扩展，扩展效率达到 99%。

图 2. 源数据：Google 基准测试使用 MaxText 参考实现在 4k Seq Length 上进行。nx Trillium-256 对应于一个 ICI 域中带有 256 个芯片的 n 个 Trillium Pod。

与前几代产品相比，Trillium TPU 的扩展效率明显更高。下图中，我们的测试表明，与同等规模的 Cloud TPU v5p 集群相比，Trillium 在 12 个 Pod 规模下的扩展效率高达 99%（总峰值浮点运算次数）。

图 3. 源数据：MLPerf 4.1 Training Closed 结果，针对 Trillium（预览版）和 v5p 在 GPT3-175b 训练任务上。截至 2024 年 11 月：Trillium 和 Cloud TPU v5p 的弱缩放比较。v5p-4096 和 4xTrillium-256 被视为缩放因子测量的基础。nx Trillium-256 对应于一个 ICI 域中带有 256 个芯片的 n 个 Trillium Pod。v5p-n 对应于单个 ICI 域中的 n/2 个 v5p 芯片。

训练 LLM，包括密集模型和混合专家 (MoE) 模型

像 Gemini 这样的 LLM 本身就很强大且复杂，拥有数十亿个参数。训练如此密集的 LLM 需要巨大的计算能力以及共同设计的软件优化。与上一代 Cloud TPU v5e 相比，Trillium 为 Llama-2-70b 和 gpt3-175b 等密集 LLM 提供了高达 4 倍的训练速度。

图 4. 源数据：在 v5e 和 Trillium 上运行的 steptime 的 Google 基准测试

除了密集的 LLM，使用混合专家 (MoE) 架构训练 LLM 是一种越来越流行的方法，它结合了多个“专家”神经网络，每个网络专门处理 AI 任务的不同方面。与训练单个整体模型相比，在训练期间管理和协调这些专家会增加复杂性。与上一代 Cloud TPU v5e 相比，Trillium 为 MoE 模型提供的训练速度提高了 3.8 倍。

图 5. 源数据：在 v5e 和 Trillium 上运行的 steptime 的 Google 基准测试

此外，与 Cloud TPU v5e 相比，Trillium TPU 提供了 3 倍的主机动态随机存取内存 (DRAM)。这将部分计算卸载到主机，有助于在规模上最大限度地提高性能和Goodput。Trillium的主机卸载功能在训练 Llama-3.1-405B 模型时可将性能提高 50% 以上，以模型 FLOPs 利用率 (MFU) 衡量。

推理性能和收集调度

多步推理在推理时的重要性日益增加，因此需要能够有效处理日益增长的计算需求的加速器。Trillium 为推理工作负载提供了重大改进，从而实现了更快、更高效的 AI 模型部署。事实上，Trillium 为图像扩散和密集 LLM 提供了我们最好的 TPU 推理性能。我们的测试表明，与 Cloud TPU v5e 相比，Stable Diffusion XL 的相对推理吞吐量（每秒图像数）高出 3 倍以上，Llama2-70B 的相对推理吞吐量（每秒TOKEN数）高出近 2 倍。

Trillium 是我们性能最高的 TPU，适用于离线和服务器推理用例。下图显示，与 Cloud TPU v5e 相比，Stable Diffusion XL 的离线推理相对吞吐量（每秒图像数）高出 3.1 倍，服务器推理相对吞吐量高出 2.9 倍。

图 6.源数据：Google 使用 MaxDiffusion 参考实现对离线和在线 SDXL 用例的每秒图像数进行基准测试。

除了更好的性能之外，Trillium 还引入了新的集合调度功能。当集合中有多个副本时，此功能允许 Google 的调度系统做出智能的作业调度决策，以提高推理工作负载的整体可用性和效率。它提供了一种管理运行单主机或多主机推理工作负载的多个 TPU 切片的方法，包括通过 Google Kubernetes Engine (GKE)。将这些切片分组到一个集合中可以轻松调整副本数量以满足需求。

嵌入密集型模型

通过添加第三代SparseCore，Trillium 将嵌入密集型模型的性能提高了 2 倍，将DLRM DCNv2 的性能提高了 5 倍。

SparseCore 是数据流处理器，可为嵌入密集型工作负载提供更具适应性的架构基础。Trillium 的第三代 SparseCore 擅长加速动态和数据相关操作，例如分散-聚集、稀疏段求和和分区。

提供训练和推理性价比

除了训练全球最大的 AI 工作负载所需的绝对性能和规模之外，Trillium 还旨在优化性价比。迄今为止，在训练 Llama2-70b 和 Llama3.1-405b 等密集型 LLM 时，Trillium 的性价比比 Cloud TPU v5e 高出 2.1 倍，比 Cloud TPU v5p 高出 2.5 倍。

Trillium 擅长以经济高效的方式并行处理大型模型。它旨在帮助研究人员和开发人员以比以前低得多的成本提供强大而高效的图像模型。在Trillium 上生成一千张图像的成本比用于离线推理的 Cloud TPU v5e 低 27% ，比用于 SDXL 服务器推理的 Cloud TPU v5e 低 22%。

图 7.源数据：Google 使用 MaxDiffusion 参考实现对离线和在线 SDXL 用例的每秒图像数进行基准测试。

将 AI 创新提升到新水平

Trillium 代表了 Google Cloud 人工智能基础架构的重大飞跃，为各种人工智能工作负载提供了令人难以置信的性能、可扩展性和效率。Trillium 能够使用世界一流的共同设计软件扩展到数十万个芯片，让您能够更快地实现突破并提供卓越的人工智能解决方案。此外，Trillium 卓越的性价比使其成为寻求最大化人工智能投资价值的组织的经济实惠的选择。随着人工智能格局的不断发展，Trillium 证明了 Google Cloud 致力于提供尖端基础架构，使企业能够充分发挥人工智能的潜力。

我们很高兴看到您将如何利用 Trillium 和 AI Hypercomputer 来突破 AI 创新的界限。观看公告视频，其中重点介绍了 Trillium 系统如何协同工作以加速您最苛刻的 AI 工作负载。

https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3974期内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦