(原标题:这种大芯片,大有可为)
公众号记得加星标??,第一时间看推送不会错过。
人工智能(AI)模型呈指数级增长,目前已达到万亿参数,这揭示了传统单芯片图形处理单元(GPU)架构在可扩展性、能源效率和计算吞吐量方面的显著局限性。晶圆级计算已成为一种变革性的范式,它将多个小芯片集成到一块单片晶圆上,以提供前所未有的性能和效率。Cerebras晶圆级引擎(WSE-3)拥有4万亿晶体管和90万个核心,特斯拉的Dojo每个训练芯片拥有1.25万亿晶体管和8,850个核心,这些平台都体现了晶圆级AI加速器满足大规模AI工作负载需求的潜力。
本综述对晶圆级AI加速器和单芯片GPU进行了全面的比较分析,重点关注它们在高性能AI应用中的相对性能、能源效率和成本效益。同时,也探讨了台积电(TSMC)的晶圆上芯片封装技术(CoWoS)等新兴技术,该技术有望将计算密度提高多达40倍。
此外,本研究还讨论了关键挑战,包括容错、软件优化和经济可行性,深入探讨了这两种硬件范式之间的权衡和协同作用。此外,还讨论了新兴的AI硬件趋势,包括三维(3D)集成、光子芯片和先进半导体材料。本综述旨在通过评估它们的优缺点,为可扩展和节能AI计算的开发提供信息。未来的展望概述了未来5到10年内预计的关键进展,这些进展将塑造下一代AI硬件。
图1. Cerebras、NVIDIA、Google和特斯拉在AI硬件发展中的关键里程碑时间线 (1993-2024)
上图是AI硬件主要平台按时间顺序演进,突出显示了四家领先公司的重要发布和产品:Cerebras 的里程碑(黄色)包括晶圆级引擎 WSE-1 (2019)、WSE-2 (2021) 和 WSE-3 (2024) 的发布,以及公司在2015年的成立。NVIDIA 的贡献(绿色)涵盖了从 GeForce 256 (1999) 到最近的 Blackwell B100/B200 GPU (2024),其中包括 Tesla V100、A100、H100 和 RTX 4090 等知名架构。Google 的 TPU 系列(蓝色)展示了从2015年初始开发到2024年 TPU v6e 的 successive 代次。Tesla(红色)于2021年宣布其 Dojo 系统,从而进入AI硬件领域。这条对比时间线突显了行业领导者在高性能AI加速器方面不断加速的创新。
引言
在当今技术创新的时代,人工智能(AI)已成为科学和工业领域的一股变革力量。大规模AI模型的开发彻底改变了问题解决方式,例如AlphaFold2精准预测人类蛋白质结构、AlphaTensor在矩阵乘法算法上的进步以及DGMR增强天气预报能力等突破性成就,都例证了AI驱动解决方案在应对全球挑战方面无与伦比的力量。
然而,AI模型的快速发展伴随着计算需求的指数级增长。AI模型的大小已从数百万参数增长到数十亿参数,在不久的将来,其目标将是万亿甚至更多。这种爆炸式增长在训练这些模型所需的计算能力与传统硬件架构的能力之间造成了巨大的差距。值得注意的是,仅在过去两年中,大型模型所需的计算能力就增加了1000倍,远远超过了硬件改进的翻倍速度。这种差异凸显了对创新计算模型以满足新兴AI技术需求的迫切性。
为了应对这些挑战,晶圆级计算应运而生,成为一种突破性的替代方案。与依赖单个芯片或分布式集群的传统架构不同,晶圆级计算利用先进的封装和现场缝合技术,将多个小芯片集成到一块单片晶圆中。这种方法提供了前所未有的计算能力、带宽密度和集成效率,标志着高性能计算领域的一次范式转变。Cerebras晶圆级引擎(WSE)和特斯拉Dojo等开创性平台,都彰显了晶圆级系统的显著发展。
图1展示了AI硬件发展的时间进程。2019年,Cerebras推出了WSE-1,拥有40万个核心和1.2万亿个晶体管。两年后,WSE-2在此基础上将晶体管数量翻倍至2.6万亿,并将核心数量增加到85万个。WSE-2的占地面积为46,000平方毫米,仍然是迄今为止建造的最大的处理器,专门设计用于满足机器学习工作负载的极端内存带宽需求。2024年,Cerebras推出了WSE-3,通过比其前身更多的AI优化核心、更快的内存和更高的片上带宽,进一步推动了该领域的发展。WSE-3拥有90万个核心、4万亿个晶体管,能够支持24万亿个参数。类似地,特斯拉的Dojo于2021年宣布并随后实施,代表了一种独特的晶圆级计算方法。Dojo设计为百亿亿次级平台,将晶圆级集成与分布式可扩展性相结合,以处理特斯拉内部的机器学习工作负载,同时保持对未来AI模型的通用性。通过在整个晶圆尺寸的互连上集成异构组件,Dojo展示了跟上机器学习快速发展需求的能力。
这些系统通过优化芯片间带宽、减少互连开销以及实现核心和内存的密集集成,提供了数量级更高的性能。例如,WSE-3凭借其4万亿个晶体管和90万个核心,展示了在单个单片平台中处理超大规模机器学习工作负载的可行性。同时,特斯拉的Dojo突显了晶圆级系统在分布式AI训练中的适应性,平衡了可扩展性和可编程性,以满足不断变化的计算需求。
晶圆级计算具有几个显著优势,使其成为高性能计算领域的变革性解决方案。一个显著的优势是其卓越的带宽密度,这显著增强了芯片间通信。例如,特斯拉的Dojo系统每个芯片边缘实现了2 TB/s的惊人带宽,其每个训练芯片拥有1.25万亿个晶体管和8,850个核心,每个ExaPOD超级计算机中结合了超过100万个核心和3,000个D1芯片。Dojo系统拥有仅100纳秒的超低芯片间延迟,这反映了其紧密集成的芯片架构,而NVIDIA H100图形处理单元(GPU)在BFloat16精度下单次并发请求的延迟约为12毫秒。这凸显了晶圆级系统在最大程度减少AI硬件通信延迟方面的卓越集成效率。与传统系统不同,晶圆级芯片实现了更高的密度和紧凑性。例如,单个特斯拉Dojo训练芯片在紧凑的占地面积内集成了25个芯片,而使用传统芯片实现同等功能将需要超过10倍的物理面积。此外,晶圆级计算通过最大程度地减少互连开销来增强可编程性,从而实现细粒度数据通信和高效资源分配。这种减少的开销简化了GPU集群等分布式架构的管理,并促进了计算资源的有效利用。
新兴趋势表明晶圆级计算将取得进一步的进步。到2027年,台积电(TSMC) 有望推出利用其先进封装技术——晶圆上芯片-基板(CoWoS) 的晶圆级集成,并将用其生产特斯拉的下一代 D2芯片。这种创新方法类似于他们对特斯拉D1芯片的处理方式,涉及将预先测试过的逻辑芯片连接到硅基板上。这种方法更关键的部分是,高带宽内存(HBM)将连接到嵌入高密度互连和垂直连接(称为硅通孔(TSVs))的硅基板上。逻辑芯片可以利用台积电的三维(3D)芯片技术,称为集成芯片系统(SoICs),以进一步提升性能。台积电预计这种全晶圆级集成将提供比现有系统高出40倍的计算能力,整合相当于超过40个光罩的硅面积,并容纳超过60个HBM,从而实现前所未有的计算密度和效率水平。
尽管晶圆级计算具有变革性的前景,但作为一项新兴技术,它也面临着一些严峻挑战。这些挑战包括架构可扩展性、容错性、封装良率和软件优化。解决这些问题需要一种综合方法,即整合跨堆栈设计方法、尖端封装策略和创新执行模型,以充分释放晶圆级系统的潜力。
本文全面回顾了晶圆级计算,综合了现有技术的见解并探索了未来的发展方向。我们旨在弥合学术研究与工业实践之间的鸿沟。我们的目标是为读者提供对这一新兴领域的基本原理、成就和局限性的全面理解。通过这样做,我们希望激发在寻求可扩展、节能和高性能计算解决方案方面的进一步进步和合作。
现有的AI训练硬件芯片
随着AI模型复杂性和规模的增长,传统计算架构在效率和可扩展性方面面临局限。新兴的硬件技术旨在通过提供改进的性能、能源效率和针对AI工作负载的专业能力来应对这些挑战。表1解释了用于AI训练的现有硬件芯片。新兴的AI硬件芯片正在彻底改变计算工作负载,在效率、可扩展性和处理能力方面取得了进步。Cerebras、特斯拉(Tesla)、谷歌(Google)、AMD 和 英伟达(NVIDIA) 等公司正在设计具有独特架构的尖端处理器,以满足AI训练和推理日益增长的需求。这些芯片在尺寸、晶体管数量、散热机制、内存带宽和特定应用方面各不相同,各自在AI计算的不同方面表现出色。
Cerebras WSE-3 于2024年推出,作为最大的AI芯片之一脱颖而出,其面积达46,225平方毫米,包含4万亿个基于5纳米节点构建的晶体管。它拥有90万个核心和惊人的21 PB/s内存带宽,采用晶圆级集成和3D内存技术,以实现超大规模AI训练和科学模拟。先进的液体冷却对于管理如此庞大处理单元的巨大热量输出至关重要。
特斯拉Dojo D1芯片 于2022年发布,采用不同的方法,通过小芯片实现模块化可扩展性。每个芯片尺寸约为645平方毫米,在7纳米节点上拥有1.25万亿个晶体管。特斯拉的芯片每个tile拥有8,850个核心,每个die的内存带宽为2 TB/s,专门为大规模AI训练而设计,尤其是在自动驾驶领域。它利用直接液体冷却来消散其高热密度产生的热量。
Graphcore的IPU-GC200 于2020年推出,是一款AI芯片,尺寸约为800平方毫米,包含236亿个基于7纳米节点构建的晶体管。它具有1,472个核心和47.5 TB/s的内存带宽,使其成为带宽最高的AI处理器之一。其可重构架构和基于事件的处理能力使其非常适合深度学习、自然语言处理(NLP)和Transformer模型,利用细粒度并行性实现高效的AI计算。与此同时,SambaNova的RDU 于2024年推出,专注于用于AI推理和企业AI应用的可重构数据流架构。这些处理器优先考虑业务环境中的效率,采用风冷而非高功率液冷。
谷歌的Tensor Processing Unit (TPU) v6e 于2024年发布,专门用于谷歌云中的大型AI模型训练。它尺寸约为700平方毫米,在5纳米节点上构建,实现了3.2 TB/s的内存带宽,并采用液体冷却来处理TPU pod的高工作负载。
AMD的MI300x 于2023年推出,集成了CPU和GPU架构。这种混合方法优化了AI工作负载,在5纳米节点上利用1530亿个晶体管,内存带宽达5.2 TB/s。通过OAM标准实现的被动散热确保了AI模型训练和高性能计算的有效热管理。
英特尔的Habana Gaudi3 于2024年推出,是分布式AI训练和云端工作负载的另一个关键参与者。它采用5纳米工艺构建,尺寸约为900平方毫米,由64个核心组成,内存带宽为3.7 TB/s。它支持风冷和液冷,使其成为数据中心的多功能解决方案。展望未来,台积电 正在开发预计采用3纳米工艺的先进AI芯片。这些芯片将结合晶圆级集成、EUV光刻和基于光子学的设计,以支持大规模AI训练和高性能计算。
Mythic模拟矩阵处理器-1076 于2021年发布,采用独特的模拟计算方法,集成了内存和计算功能,实现了能源效率高的AI推理。由于其低功耗,它依赖被动散热,特别适用于边缘AI应用。同样,英特尔的Loihi 2神经形态芯片 于2021年推出,针对低功耗事件驱动型AI处理进行了优化。它基于14纳米节点构建,由128个异步神经元核心和6个嵌入式微处理器核心组成,非常适合实时AI、机器人技术和边缘AI。
英伟达的Grace Hopper超级芯片 于2024年推出,集成了GPU和CPU架构,在5纳米工艺上尺寸约为1,100平方毫米。它使用NVLink-C2C进行高性能工作负载,专门针对大规模语言模型训练。相比之下,富士通的Digital Annealer 于2018年推出,是一款基于7纳米节点构建的量子启发式AI芯片。它专注于组合问题求解和AI模型调优,采用可重构架构和风冷。
在比较这些芯片时,Cerebras WSE-3 在尺寸和核心数量方面无可匹敌,而AMD的MI300x 在晶体管密度方面处于领先地位。Graphcore的IPU-GC200 拥有最高的内存带宽,达47.5 TB/s,显著超越其他AI芯片。这些处理器之间的散热解决方案各不相同,Cerebras、特斯拉、谷歌和英伟达使用先进的液冷,而像Mythic的模拟处理器和英特尔的神经形态Loihi 2等节能芯片则依赖被动或风冷来最大程度地降低功耗。可扩展性和AI训练性能在不同架构之间也有所差异。Cerebras和谷歌的TPU v6e专注于大规模AI训练,而特斯拉的Dojo系统则实现了AI加速的模块化扩展。AMD、英伟达和英特尔的混合CPU-GPU设计旨在通过结合两种架构的优势来优化AI计算。
对比分析:
晶圆级引擎(WSE)与GPU集群
大规模AI模型训练日益增长的需求推动了专用硬件平台的进步。本节将详细比较它们的性能指标,包括计算吞吐量、延迟、能效和可扩展性,以突出它们各自的优缺点。通过研究这些因素,我们旨在确定每种技术在大规模AI训练中的最佳用例。表2总结了WSE和GPU集群的关键性能指标,提供了对其能力的全面概述。
性能指标
AI训练芯片GPU硬件的性能通过几个关键指标进行评估,这些指标决定了其处理大规模AI工作负载的效率和能力。每秒浮点运算次数(FLOPS) 是一个基本基准,表示GPU在深度学习中必不可少的矩阵密集型操作的原始计算能力。内存带宽 同等重要,它决定了数据访问和处理的速度,直接影响训练效率。延迟 和 吞吐量 等指标评估GPU处理大数据负载和模型并行性的效率,从而影响实时性能。功耗效率(以每瓦性能衡量)随着AI模型复杂性和规模的增长变得越来越重要。此外,互连带宽 和 软件优化 影响多个GPU在分布式训练环境中协作的良好程度。
大规模AI模型训练速度评估
AI硬件的最新进展显著提高了训练大规模AI模型的效率。Cerebras的WSE-3 和 NVIDIA的H100 GPU 代表了该领域的两项尖端技术。这些创新突出了应对现代AI工作负载带来的计算挑战的不同方法。
Cerebras WSE-3 展示了单片架构在AI模型训练方面的潜力。WSE-3覆盖整个硅晶圆(46,225平方毫米),集成了4万亿个晶体管、90万个AI优化核心和44 GB片上SRAM(表2)。这种架构实现了无缝的片上通信,消除了传统多芯片系统相关的芯片间延迟和瓶颈。WSE-3在FP16下进行AI模型训练时,峰值性能达到125 PFLOPS(表2),并支持训练高达24万亿参数的AI模型,无需进行模型分区。这种能力使其独特地适用于以简化和高效的方式处理超大型模型。WSE-3的一个关键优势是其能效。通过避免互连开销,WSE-3最大程度地减少了能量损耗,使其在大型工作负载方面高效。例如,在碳捕获模拟中,WSE-3的速度比NVIDIA H100快210倍,凸显了其在特定应用中的潜在优势。与依赖分层内存架构(可能产生处理瓶颈)的传统GPU不同,WSE的设计使其85万个核心能够独立运行,直接访问本地内存,显著提高了计算吞吐量。
然而,WSE-3的单片设计限制了其在单个晶圆之外的可扩展性,并且其专用架构需要定制的软件生态系统,例如Cerebras软件开发工具包(SDK)。尽管它支持PyTorch和TensorFlow,但缺乏原生CUDA兼容性。Cerebras开发了一种无矩阵方法来解决基于有限体积的线性系统,利用其SDK实现的数据流架构。这种方法消除了存储大型雅可比矩阵的需要,显著减少了内存需求,同时提高了计算效率。当部署在WSE-2系统上时,这种方法在单个节点上使用FP16实现了1.217 PFLOPS的峰值性能,证明了其在加速大规模模拟方面的有效性。
相比之下,英伟达(NVIDIA)的H100 GPU 基于Hopper架构,为大规模AI训练提供了一种模块化和分布式的方法。每个H100 GPU提供60 TFLOPS的FP64计算能力,适用于高性能计算(HPC),并具有动态编程指令,可将性能提高多达7倍。H100通过Transformer引擎等创新技术针对大型语言模型(LLM)进行了优化,从而加速基于Transformer的工作负载。英伟达的DGX H100 等系统利用八个相互连接的H100 GPU,提供超过1 ExaFLOP的FP8 AI性能。然而,基于H100系统的分布式特性引入了通信开销。尽管NVLink(每个GPU 900 GB/s)和HBM3内存(3.35 TB/s)可以减轻延迟,但对于超大型模型,GPU间的通信仍然可能减慢训练速度。
此外,H100对先进并行技术的依赖,将工作负载分配到各个GPU上,随着模型尺寸的增加,会引入复杂性和潜在瓶颈。尽管存在这些挑战,H100受益于成熟的软件生态系统(例如CUDA、cuDNN、TensorRT、TensorFlow、PyTorch)和卓越的模块化,使其适用于广泛的AI应用。其功耗效率创新,如HBM3内存和NVLink,值得关注,尽管该系统需要额外的散热解决方案来管理互连GPU产生的热量。
Cerebras WSE-3 和 NVIDIA H100 代表了大规模AI训练的互补解决方案。WSE-3凭借其单片架构和节能设计,在处理超大型模型方面表现出无与伦比的速度和简洁性。例如,WSE-3无需分区即可训练万亿参数模型的能力,为特定用例提供了显著优势,例如由2,048个WSE-3系统组成的集群,有可能加速Meta的700亿参数Llama 2 LLM的训练,仅需一天即可完成,比Meta现有AI训练集群快30倍,后者大约需要30天。即使在16位精度下,WSE-3运行Llama 3.1 80亿参数模型时,每秒可生成超过1,800个tokens,而性能最佳的基于H100的实例每秒只能生成超过242个tokens。然而,卓越的性能伴随着高昂的成本。一个Cerebras WSE系统大约需要200万至300万美元。与NVIDIA GPU相比,Cerebras系统的实际应用并不广泛。
迄今为止,Cerebras WSE系统已部署在阿贡国家实验室,以在短时间内探索更多想法,梅奥诊所也已与Cerebras系统启动了为期多年的战略合作,开发多模态LLM,旨在改善患者预后和诊断。来自三家实验室(桑迪亚、劳伦斯利弗莫尔和洛斯阿拉莫斯国家实验室)的研究人员与Cerebras系统合作,在分子动力学和计算科学方面取得了前所未有的速度。Cerebras与AI公司G42合作,在美国德克萨斯州达拉斯的Condor Galaxy 3-5设施和美国明尼苏达州明尼阿波利斯的Condor Galaxy 6-9设施开发了一个由64个WSE-3系统组成的集群。这项举措是一个更大的九阶段项目的一部分,该项目已分别在FP16下实现了20和32 ExaFLOPS的计算性能。
与此同时,英伟达的H100 提供分布式架构和Transformer引擎,使其成为通用AI工作负载的首选,包括LLM和HPC。据英伟达报告,H100 GPU在MLPerf中为大规模训练时间性能树立了新基准,在各种工作负载(包括新的LLM训练任务)中实现了创纪录的速度。由于其多功能性、成熟的生态系统和卓越的模块化,它已被微软、Meta、谷歌云、戴尔科技、慧与科技、联想、超微、亚马逊网络服务、谷歌云、微软Azure、甲骨文云、CoreWeave、Lambda和特斯拉等主要科技和汽车公司广泛采用。
这些发展凸显了WSE和GPU的互补优势。虽然WSE在处理最大模型方面具有无与伦比的速度和简洁性,但H100等GPU为广泛的AI应用提供了多功能性、成熟的生态系统和卓越的模块化。
WSE与GPU集群之间的
延迟和吞吐量差异
高性能AI和机器学习需要专用硬件来满足训练LLM日益增长的需求。为了满足这些要求,WSE和GPU集群已成为两种主要的架构,每种都有独特的优势和权衡。本节探讨WSE(重点关注Cerebras WSE-3和特斯拉Dojo训练芯片)和GPU集群(NVIDIA H100和谷歌Trillium TPU v6e)之间的延迟和吞吐量差异。
WSE-3的设计旨在通过消除多芯片之间的数据传输需求来最大限度地减少延迟,这在GPU集群中很常见。这种单片架构实现了大规模并行和核心之间的低延迟通信。根据 Cerebras 的说法,与传统的GPU集群相比,WSE-3 训练大型模型的时间最多可快2倍。
特斯拉的Dojo训练芯片是另一个专门为AI训练设计的晶圆级系统,特别是针对自动驾驶应用。这种晶圆级集成减少了通信开销。Dojo 的架构强调可扩展性和效率,重点在于降低分布式训练场景中的延迟。特斯拉声称,Dojo 在单个机柜中可实现 1.3 ExaFLOPS 的计算能力,拥有 1.1 TB/s 的互芯片带宽和 10 TB/s 的片内双向带宽,使其成为目前最强大的AI训练系统之一。
英伟达(NVIDIA)的H100 基于 Hopper 架构,是AI训练中最强大的GPU之一,包括 18,432个CUDA核心和640个张量核心。此外,H100 配备了 NVLink 和 NVSwitch 系统,用于高速GPU间通信。英伟达的GPU集群旨在实现可扩展性,允许多个GPU在集群中协同工作。然而,这会引入GPU之间的通信延迟。根据英伟达的说法,对于大规模AI模型,H100 的训练性能比其前身A100 快6倍。
谷歌(Google)的Trillium TPU v6e 是其TPU产品线中的最新成员,针对AI训练和推理进行了优化,芯片峰值性能估计比上一代v5e提高了4.7倍,HBM容量增加了一倍。TPU旨在优化吞吐量,特别是针对大规模分布式训练。此外,谷歌报告称,Trillium TPU v6e的能效比上一代TPU提高了67%以上。
WSE-3 的单片设计消除了芯片间通信,从而实现了片上数据移动的超低延迟。这对于需要核心之间频繁通信的工作负载尤其有利,例如训练大型神经网络。据Cerebras称,WSE-3与传统GPU集群相比,可将软件复杂性降低高达90%,同时将实时生成式AI推理的延迟降低10倍以上。
Dojo 的晶圆级集成也通过最大限度地减少数据在处理单元之间传输的距离来降低延迟。然而,它对可扩展性的关注意味着在跨多个芯片扩展时会引入一些延迟。特斯拉已证明Dojo在实时自动驾驶车辆训练任务中可以实现100纳秒的芯片间延迟。
英伟达(NVIDIA)H100 提供了高性能,但其多GPU架构由于数据通过NVLink或PCIe在GPU之间传输而引入了通信延迟。这种延迟可能成为大规模分布式训练的瓶颈。英伟达通过NVLink 4.0解决了这个问题,它提供了每个GPU 900 GB/s的双向带宽,但延迟仍然高于晶圆级系统。
谷歌Trillium TPU v6e 针对吞吐量进行了优化,但当跨多个设备扩展时,它们仍然面临芯片间通信延迟。谷歌通过高带宽互连来缓解这个问题,但延迟仍然高于晶圆级系统。谷歌报告称,Trillium TPU v6e在片上操作中实现了纳秒级延迟,但芯片间延迟可能显著更高。
比较延迟的表格(表3)已包含在内,其中提供了WSE和GPU集群之间的片上和芯片间延迟。
从吞吐量角度来看,WSE-3的巨大核心数量和高内存带宽使得AI训练的吞吐量异常出色。其单片设计确保所有核心都能协同工作而不会出现瓶颈。Cerebras声称WSE-3在AI工作负载下可实现高达125 PFLOPS的峰值性能。
Dojo 的吞吐量针对特斯拉的特定工作负载(例如自动驾驶车辆训练)进行了优化。其晶圆级设计允许高吞吐量,但专为特斯拉的用例量身定制。特斯拉报告称,Dojo可以同时处理100万个视频流,每个流以36帧/秒的速度运行,用于训练自动驾驶模型。
H100 在吞吐量方面表现出色,特别是与英伟达的软件堆栈(CUDA、cuDNN、TensorRT)结合使用时。它在多个GPU之间的可扩展性使其成为大规模训练的理想选择,尽管吞吐量可能会受到GPU间通信的限制。英伟达声称,单个H100 GPU在使用FP64精度时可以实现高达60 TFLOPS的HPC。
TPU 专为分布式训练场景而设计。谷歌的自定义互连和软件优化确保了高效率,但吞吐量仍然受到需要跨多个芯片进行扩展的限制。谷歌报告称,单个Trillium TPU v6e pod可以为大规模AI训练提供ExaFLOP级性能。
表4显示了峰值和实际AI训练吞吐量,也提供了相应的WSE和GPU集群的关键权衡。
晶圆系统凭借其消除芯片间通信和简化编程的架构,为单晶圆工作负载提供了超低延迟和高吞吐量。Cerebras WSE-3 与传统的基于GPU的系统相比,可提供显著更低的延迟。这得益于其巨大的内存带宽和紧密耦合的计算与内存架构,从而实现了单芯片上的高效流水线执行。每个晶圆区域处理一个token,并拥有足够的内存带宽来运行本地批处理大小为1,通过确保下一个区域在物理上相邻,从而在流水线阶段之间几乎没有延迟,保持低延迟。这种架构优化了矩阵乘向量操作的性能,并支持高单用户速度和高多用户吞吐量,消除了GPU系统中常见的延迟与吞吐量权衡。然而,它们在单晶圆之外的可扩展性、高制造成本和通用工作负载的灵活性方面面临限制。相比之下,GPU集群在多GPU扩展性方面表现出色,并为广泛的应用提供灵活性,并由CUDA、TensorFlow和PyTorch等成熟的软件生态系统支持。然而,GPU集群由于GPU间通信、吞吐量瓶颈和散热要求而面临更高的延迟。因此,每种架构都具有独特的优势和权衡,使其适用于AI和HPC中的不同用例。
架构差异
英伟达(NVIDIA)的Hopper架构遵循模块化方法,利用多个流式多处理器,这些处理器可以通过NVLink互连以构建可扩展系统,适用于包括AI、HPC和图形在内的各种工作负载。相比之下,Cerebras的WSE 采用单片设计,一个巨大的单硅晶圆包含数十万个AI优化核心,专门针对深度学习任务进行了优化。虽然Hopper的模块化允许跨多个GPU的灵活性和可扩展性,但它引入了互连开销。WSE的单芯片架构最大程度地减少了通信延迟,但由于晶圆尺寸而面临物理可扩展性限制,使其在特定AI工作负载中效率极高,但在更广泛的应用中通用性较差。
对比WSE的单片方法与GPU集群的
分布式架构
在本节中,读者将了解WSE系统与传统GPU集群的通用架构比较。架构差异显著,主要受其设计原则、数据通信方法和集成效率的影响。核心差异汇总在表5中。此外,图2展示了关键特性的视觉比较(以Cerebras WSE-3和NVIDIA H100为例)。图2A显示了晶体管数量、核心数量和可扩展性的比较,而图2B则说明了节点、性能和功耗的比较。
图2. 晶圆级与传统基于GPU的AI加速器对比分析
(A) Cerebras晶圆级引擎(WSE-3)与NVIDIA H100 GPU在晶体管数量、核心数量和可扩展性方面的比较。 WSE-3展现出显著更高的晶体管密度和核心数量,这反映了其单片晶圆级设计,而H100在多个单元间提供更好的模块化可扩展性。(B) 工艺节点、计算性能和功耗的比较。 尽管两个系统都使用相似的半导体工艺节点,但WSE-3提供明显更高的计算性能,同时其功耗也显著高于H100。这些比较突显了不同AI硬件架构在原始性能和能源效率之间的权衡。
WSE旨在通过数据并行进行扩展,这与GPU集群类似。这种方法避免了混合模型并行相关的复杂性,混合模型并行在将模型分发到不同芯片或系统时会引入显著的延迟和开销。通过保持单一架构模型,它简化了执行模型,使管理和优化大型数据集和复杂神经网络的性能变得更容易。
WSE的架构旨在足够大,可以在单个芯片上运行最大的AI模型,该芯片采用了一种称为单片架构的设计(如Cerebras WSE-3中所示),其中整个硅晶圆作为一个单一的统一处理器运行。这种设计消除了对复杂芯片间通信的需求,允许超高带宽的片上通信,晶圆上紧密互连的数万亿晶体管(表2),从而通过将所有操作保持在同一芯片内来提高性能。SRAM分布在晶圆上,实现了片上内存计算,通过消除从芯片外部获取和存储数据的需要,大大减少了延迟。本地SRAM位于晶圆中(如图3A所示),这使得每个核心都可以独立处理其模型部分,而无需等待全局内存。
此外,将数十万个核心(表2)容纳在单个单元中,可以在依赖密集矩阵操作的大型AI工作负载中表现出色。此外,晶圆级系统将计算和内存资源整合到单个晶圆上,消除了多芯片系统中固有的组件间数据移动和互连功率损耗带来的能量开销,从而实现了卓越的能源效率和每瓦更高的计算性能(如表9所示)。
尽管晶圆级架构具有所有这些优势,但传统上它们容易出现良率问题(晶圆内的晶体管缺陷)。然而,WSE 采用冗余计算核心和容缺陷路由机制来绕过故障区域。WSE-3 使用一种名为 SwarmX96 的自定义互连结构,该结构可以动态地将数据路由到有缺陷的核心或互连周围,同时隔离缺陷区域,并且路由结构会自动通过替代路径重新路由数据,从而保持晶圆的整体功能。这确保了核心之间的通信不会中断。
相比之下,传统的 GPU 架构依赖于分布式计算模型,其中多个独立的 GPU(如 NVIDIA H100 和 AMD MI300X)通过名为 NVLink、PCIe 或外部网络基础设施的高速互连(图3B)连接在一起,从而导致更高的延迟和带宽限制。虽然 NVSwitch 和 RDMA 等技术有助于减少瓶颈,但它们无法与 WSE 的直接晶圆内通信相媲美。
与晶圆级系统不同,传统 GPU 依赖于分层内存架构,将快速但有限的共享内存(如L1缓存,也如图3B所示)与高带宽全局内存(HBM3或GDDR6X)(表2)结合起来,需要频繁跨节点进行数据传输,这可能在大规模训练中引入内存带宽瓶颈。由于传统 GPU 系统是分布式的,单个 GPU 或节点的故障不会影响整个系统。冗余自然地内置其中,允许将工作负载重新分配到正常运行的 GPU。
此外,随着这些 GPU 横向扩展,需要多个节点可以灵活扩展,这也会增加系统复杂性、功耗和散热要求。由于网络、互连和节点同步,GPU 集群的功耗变得很高,使能效成为数据中心面临的关键挑战。从积极的方面来看,GPU 在各种工作负载方面仍然具有通用性,而晶圆级架构在目标 AI 模型方面具有卓越的效率,以牺牲跨节点的可扩展性来换取无与伦比的片上性能。
图3. WSE与传统GPU的核心架构
(A) Cerebras晶圆级引擎(WSE)中处理元件的示意图,突出显示其高度并行、以内存为中心的设计。 每个核心集成了张量控制、SRAM、寄存器和融合乘加(FMAC)数据通路,所有这些都通过高带宽片上互连连接,以实现晶圆上高效的数据移动。(B) NVIDIA传统GPU架构(例如H100)的框图,展示了流式多处理器(SMs)、核心、控制单元、内存层次结构(L1和L2缓存)和高带宽内存(HBM3)的组织方式。 该设计通过NVLink互连和全局内存访问强调模块化可扩展性,从而实现高效的多GPU配置。这些图共同对比了晶圆级加速器的单片集成与GPU系统的模块化、多芯片可扩展性。
AI 硬件的选择取决于特定的用例和每个系统的架构优势。表6 总结了用户案例建议。对于大规模 AI 模型训练,特别是对于 LLM、NLP 和视觉模型,Cerebras WSE-3 是最佳选择,因为它具有高 FP16 计算能力、片上内存和消除互连瓶颈的优点,使其在无需分区的情况下高效训练大型模型。然而,对于涉及中小型模型的通用 AI 训练,NVIDIA H100 更受欢迎,因为它具有通用性以及与 CUDA、TensorFlow 和 PyTorch 等行业标准 AI 软件框架的无缝集成。在 HPC 和科学模拟中,双精度(FP64)计算至关重要,NVIDIA H100 优于其他架构,使其成为物理学、金融和工程应用领域的理想选择。此外,在数据中心等注重可扩展性的环境中,NVIDIA H100 在分布式计算集群(DGX 和 SuperPODs)中表现出色,通过 NVLink 等先进互连技术确保高效的多节点处理。最后,在能效方面,Cerebras WSE-3 通过消除与 GPU 间通信相关的能量损耗而具有关键优势,使其成为优先考虑每瓦性能的大规模 AI 工作负载的更节能选择。这些架构中的每一种都存在独特的权衡,使得选择过程高度依赖于工作负载要求和系统可扩展性需求。
晶圆级引擎(WSE):
Cerebras WSE-3 与特斯拉 Dojo 训练芯片
1
架构效率、功耗和设计特性比较
表7 全面比较了 Cerebras WSE-3 和 特斯拉 Dojo 系统的效率、功耗和架构设计。
Cerebras WSE-3 采用晶圆级设计,将大约 4万亿个晶体管 和 90万个AI优化核心 集成在一块12英寸的硅晶圆上。这种架构实现了 44 GB 的大规模片上内存,显著减少了互连瓶颈。单个 WSE-3 系统,占用16个机架单元,功耗为 23 kW,并能够扩展到 2,048个互连系统。相比之下,特斯拉 Dojo 采用模块化架构,由多个较小的 D1芯片 组成,以 5×5 阵列排列在载片上。每个 D1 芯片包含 354个核心 和 500亿个晶体管,每个芯片的功耗约为 600 W。一个完全填充的25芯片 Dojo Tile 功耗为 15 kW,一个10机架的 ExaPOD 系统功耗可达 1.8 MW。特斯拉声称其每瓦性能比之前的架构提高了 1.3倍,强调了其对各种AI工作负载的适应性,包括计算机视觉和自动驾驶应用。
详细的架构分解进一步突出了这两个系统截然不同的设计理念。Cerebras WSE-3(图4A)展现出高度流线型的架构,针对深度学习工作负载进行了优化,主要依赖于本地SRAM和高效的融合乘加(FMAC)单元。每个计算核心的大部分都专用于SRAM存储体,组织成6KB的段,并具有最少量的控制逻辑。这种配置反映了Cerebras专注于最大化大规模神经网络训练中的矩阵密集型计算。数据移动通过可预测的、软件编排的路径从本地SRAM到FMAC单元进行控制,有效地最大限度地减少开销并最大化吞吐量。
图4. 特斯拉Dojo和Cerebras WSE-3的架构设计
(A) Cerebras WSE-3 核心架构。(B) 特斯拉 Dojo。(C) Cerebras WSE-3 引擎模块。(D) 特斯拉 Dojo D1 芯片tray。
相反,特斯拉Dojo架构(图4B)采用类似CPU的流水线,包括分支预测器、L1指令缓存和一个8宽解码阶段,能够为标量(算术逻辑单元、地址生成单元)和矢量(单指令、多数据、专用MatMul)执行单元提供指令。此外,Dojo具有更大的、类似缓存的内存子系统,包括1.25 MB的SRAM以及多个加载和存储路径。虽然这种设计牺牲了一些原始的矩阵乘法密度,但它提供了更大的计算灵活性。Dojo核心能够处理分支、整数算术和各种AI内核执行,使其成为一个更通用的AI加速器。
最终,Cerebras WSE-3 优先考虑矩阵密集型深度学习模型的原始计算吞吐量,将大部分硬件资源专门用于矩阵乘法单元。相比之下,特斯拉Dojo 在AI加速和更广泛的执行流水线之间取得平衡,使其能够支持更广泛的AI工作负载和传统深度学习之外的控制流任务。
2
冷却技术
如前所述,Cerebras WSE-3 和 特斯拉Dojo D1训练芯片 的功耗分别高达23千瓦和15千瓦,这意味着它们在负载下会产生大量热量。因此,冷却解决方案对于这些晶圆级系统来说是一个非常重要的考量点。秉承“一切皆在晶圆上”的理念,Cerebras 和特斯拉的散热解决方案似乎都围绕着直接集成到芯片上的液冷系统。由于芯片的尺寸,需要对冷却的分配进行精确控制,以确保其与电源一起均匀地传递。实现这一点的最佳方法是使用液冷,这也正是两家公司都选择此作为其冷却解决方案的原因。从这一点开始,Cerebras 和特斯拉的方法开始出现分歧。以下章节将详细介绍每种方法。
1、WSE-3 的集成冷却方法
Cerebras严格遵循其与最初系统 WSE-1 一同开发的冷却解决方案。WSE-3 晶圆 被牢固地安装在降压电源模块和连接有歧管的冷却板之间。歧管将水流导向冷却板的背面,然后通过一个封闭的内部水循环冷却晶圆。该水循环包含水-丙二醇混合物,这种混合物以其高效冷却系统的能力而闻名,同时还能降低水的冰点并抑制系统中金属的潜在腐蚀。电源从晶圆正面顶部供电,而热量从底部散发。该系统由降压电源模块、晶圆、冷却板和歧管组成,被称为引擎模块(图4C)。
凭借其集成设计,引擎模块直接向晶圆正面供电,以获得所需的功率密度,并提供传统封装无法实现的均匀冷却。通过这种独特的封装技术,WSE-3 能够在一个紧凑、节能的系统中实现多个GPU集群的性能。每个 WSE-3 系统中只有一个 WSE-3 芯片,这通常足以满足先进的AI训练需求。然而,对于超大规模项目或超大规模AI模型,多个 WSE-3 系统可以通过 Cerebras 的 SwarmX 互连 链接在一起,创建更强大的集群。每个系统中的所有水泵和电源都是冗余的,并且支持热插拔,便于快速访问和维护。
2、Dojo D1 芯片的集成冷却方法
特斯拉似乎没有像Cerebras那样的引擎模块,但他们确实有一种类似地将晶圆“夹”在供电和冷却板之间的冷却方法。具体来说,每个 D1 芯片 都设计有冷却通道,允许冷却剂——即去离子水——均匀地流过芯片,有效地散发操作过程中产生的热量。
这种液冷系统集成在芯片内部,通过均匀分布冷却剂到晶圆的整个表面,确保 D1 芯片保持最佳工作温度。冷却剂吸收芯片产生的热量,然后通过热交换器循环,将热量从系统中排出。电源从芯片底部供电,热量从顶部散发,这与 Cerebras 的顶部供电、底部冷却的方法形成鲜明对比。每个包含25个 D1 芯片的芯片托盘(图4D)以2×3阵列放置在供电模块上方,形成特斯拉所称的“托盘”配置。
每个服务器机柜中有两个trays,这意味着每个系统总共有12个Dojo芯片。无论是Cerebras还是特斯拉,两种方法似乎都能有效地为其各自的芯片提供适量的电力和冷却。
Cerebras WSE-3 和
特斯拉 Dojo 的制造工艺
Cerebras WSE-3 和特斯拉 Dojo AI 加速器均采用台积电(TSMC)的先进半导体制造技术制造,利用不同的工艺节点和集成策略来优化性能、可扩展性和功率效率。
Cerebras WSE-3:
台积电5纳米节点上的晶圆级制造
Cerebras WSE-3 采用台积电专门为晶圆级AI加速器优化的定制 5纳米(N5)工艺制造。与传统的基于芯片的设计不同,WSE-3是一个单一的、整体的晶圆,在一块12英寸的硅晶圆上集成了大约 4万亿个晶体管 和 90万个AI专用核心。这种晶圆级架构旨在消除芯片间通信瓶颈并提高片上内存带宽,达到 44 GB的SRAM容量。
WSE-3 的制造工艺遵循标准的 FinFET 制造流程,包括以下步骤:
晶圆准备:工艺始于一块清洁的硅晶圆。
氧化:在晶圆上生长一层薄薄的二氧化硅(SiO2),作为绝缘层。
光刻:使用极紫外(EUV)光刻,用晶体管布局图案化光刻胶层。
刻蚀:刻蚀掉晶圆未受保护的区域,定义晶体管结构。在这种情况下,刻蚀是高度各向异性的,以创建FinFET的鳍状结构。
沉积:沉积高介电常数介质和金属栅极。台积电主要将**二氧化铪(HfO2)**用于高端芯片,尽管WSE-3是否专门采用这种材料尚不清楚。
离子注入和退火:引入掺杂剂以创建n型和p型区域,然后进行退火以激活掺杂剂。
互连形成:使用铜-铜(Cu-to-Cu)混合键合在AI核心之间形成互连,增强信号完整性和功率效率。
台积电的5纳米FinFET工艺为p型晶体管引入了SiGe(硅锗)通道,与7纳米(N7)基于Si的通道相比,提高了空穴迁移率和整体晶体管性能。这使得WSE-3能够比上一代AI加速器实现更高的效率和更好的热特性。
晶圆级设计的主要挑战是良率管理,因为晶圆中的任何缺陷都可能损害性能。在设计中加入冗余和在制造后重新配置电路是提高缺陷容忍度的常见策略。这些相同的策略也用于WSE-3,它结合了冗余AI核心和容缺陷路由机制,可以动态地将数据重新路由到缺陷区域周围。这通过其互连结构(他们称之为 SwarmX)实现了WSE的稳健运行。
特斯拉 Dojo:
采用台积电7纳米工艺的晶圆级系统
另一方面,特斯拉 Dojo 采用基于台积电 7纳米(N7)工艺节点 的模块化片上系统(SoW)方法。
Dojo 的制造工艺遵循台积电的 整合扇出(InFO)封装技术,该技术增强了芯片间连接性并降低了互连功耗。制造步骤包括:
预测试逻辑芯片:每个 D1 芯片的制造过程与传统芯片类似,但在集成前会单独进行测试,以减少与缺陷相关的故障。
载片组装:预测试的芯片被放置在载片上,作为结构基础。
InFO 互连:台积电的 InFO 封装构建了高密度互连网络,使25个 D1 芯片能够像一个处理器一样工作。
填充空白处:芯片之间的空间用虚拟芯片填充,以增强结构完整性。
高密度互连制造:使用倒装芯片技术形成可靠且高密度的互连,这种技术以其性能和热管理能力而闻名。
为了应对与 Cerebras 相同的良率管理挑战,特斯拉也有自己的互连结构,称为 以太网上的特斯拉传输协议(Tesla Transport Protocol over Ethernet,TTPoE),尽管它不如 SwarmX 那么引人注目,但提供了类似的好处。
总而言之,Cerebras WSE-3 和 特斯拉 Dojo 代表了 AI加速 的两种不同的制造策略。WSE-3 的晶圆级架构提供了无与伦比的片上带宽和计算效率,得益于台积电的5纳米工艺和铜-铜混合键合。然而,它在单个晶圆之外面临可扩展性挑战,并且需要先进的缺陷管理来确保良率效率。相反,特斯拉 Dojo 在台积电7纳米工艺上采用的 SoW 设计利用模块化扩展,台积电的 InFO 技术确保了跨多个 D1 芯片的高密度倒装芯片互连。这种方法牺牲了一些原始计算密度,但提供了更大的灵活性和容错能力。表8总结了两种硬件之间的制造差异。最终,WSE-3 和 Dojo 之间的选择取决于特定工作负载的需求,WSE-3 在深度学习训练方面表现出色,而 Dojo 则为AI推理和自动驾驶工作负载提供了可扩展的、高带宽处理能力。
晶圆级引擎(WSE)与GPU集群的
能效比较
能源消耗是评估现代计算架构效率和实用性的关键因素。随着计算需求的增长,优化能效在平衡性能和可持续性方面变得至关重要。晶圆级处理器和传统GPU在功耗利用方面存在显著差异,每种方法在计算效率方面都有其自身的优缺点。检查每个计算任务的能耗可以深入了解这些架构在HPC和AI工作负载中如何高效运行。表9总结了不同WSE和GPU集群之间能效的比较。
随着计算需求的激增,能效已成为评估现代处理架构的关键因素。Cerebras WSE-3引入了一种新颖的能耗方法,在设计和性能上与传统GPU形成对比。本分析深入探讨了每个计算任务的能耗,将WSE-3与传统GPU架构进行了比较。
Cerebras WSE-3:架构创新与能效
WSE-3是处理器设计上的一个巨大飞跃,具有90万个AI优化计算核心和44 GB的片上SRAM,全部采用5纳米工艺技术制造。这种集成带来了125 PFLOPS的峰值性能,能够处理高达24万亿参数的AI模型。单片晶圆级设计最大限度地减少了芯片间通信的需求,而这在多芯片系统中是常见的能效低下来源。通过将内存和计算本地化,WSE-3减少了数据移动,从而提高了每个任务的能效。
GPU架构中的能耗挑战
GPU虽然设计用于高并行度,但本质上受限于其对通过高速互连连接的分布式处理单元的依赖。例如,NVIDIA H100在GPU间通信方面消耗大量电力,导致大规模训练工作负载中的能效低下。虽然其操作效率为7.9 TFLOPS/w,但GPU仍然是AI任务强大但能耗密集型解决方案。GPU中的内存层次结构需要HBM和处理核心之间频繁的数据交换,进一步导致其整体功耗增加。与优化本地化数据处理的晶圆级芯片不同,GPU必须在管理数据移动方面消耗额外的能量,从而增加每个任务的能耗。
可扩展性与功率分配
WSE-3的统一架构确保了其庞大核心阵列的一致功率分配,消除了与多芯片互连相关的瓶颈。这种设计允许性能线性扩展,而能耗不会相应线性增加。然而,WSE-3不能超过半导体制造中使用的标准硅晶圆的尺寸。这种物理限制对可以集成到单个WSE-3处理器中的核心数量和片上内存量施加了上限。尽管WSE-3的设计最大限度地减少了传统多芯片系统中存在的一些同步开销,但随着互连系统数量的增加,功率分配、冷却和数据一致性等挑战变得更加突出。这些因素可能导致性能可扩展性收益递减,并可能影响系统的整体能效。相比之下,基于GPU的系统扩展通常会导致非线性功率需求,这是由于同步多个处理单元的开销所致。
计算工作负载中的能耗
WSE-3 在受益于最小化数据移动的工作负载(例如 AI推理 和训练)方面表现出色。其架构能够以更低的延迟和功耗执行大规模模型。例如,WSE-3 可以处理高达 24万亿参数 的AI模型,如果使用传统的GPU集群尝试完成此壮举,将需要巨大的能源资源。
Cerebras WSE-3 展示了处理架构的范式转变,通过其晶圆级设计优先考虑能效。通过集成前所未有的核心数量和片上内存,它比传统的GPU设置降低了每个计算任务的能耗。随着计算工作负载的复杂性不断增长,采用像WSE-3这样的架构对于实现可持续和高效的HPC将至关重要。
环境影响与考量,包括两种架构的
碳足迹、热量产生和冷却要求
对高性能计算(HPC)和人工智能(AI)日益增长的依赖引发了人们对能源消耗、冷却需求和整体环境可持续性的日益关注。晶圆级引擎(WSE)的引入在计算效率方面取得了显著进步;然而,它们的环境足迹,特别是与传统GPU相比,需要进一步评估。本节将探讨与WSE相关的能源消耗、冷却基础设施、碳排放和可持续性挑战,同时评估它们对可持续计算的更广泛影响。
能源消耗与碳足迹
计算对环境的影响主要来自系统运行期间的能源消耗以及与硬件制造相关的碳排放。数据中心目前约占全球电力消耗的1%,且随着AI和云计算需求的增长,预计到2030年这一比例可能增至7%。尽管AI加速器效率的提高有助于减少能源浪费,但计算系统的整体碳足迹仍在持续上升,这主要归因于硬件生产和部署的增加。
WSE的一个关键优势是它们能够直接在单个晶圆上存储和处理整个AI模型,从而消除了能源密集型内存传输,而这正是传统基于GPU架构中的主要低效率来源。Cerebras Systems 已证明,与微软Azure云平台上的GPU相比,基于WSE的推理工作负载的成本可以降低三分之二,功耗可以降低六分之一。虽然这些改进表明运营能耗有所降低,但WSE仍然需要大量电力,其热设计功耗高达10,000 W,与大型GPU集群相当。
除了直接能源消耗,利用WSE的AI驱动型应用已应用于气候建模、碳捕获模拟和环境可持续性研究。研究表明,WSE加速的AI模型提高了碳捕获建模的计算效率,显著减少了运行大规模气候模拟所需的时间和能量。虽然这些优化有助于可持续发展,但AI广泛采用的更深层次影响也必须予以考虑。
冷却要求与热管理
WSE的高功率密度带来了显著的散热挑战。传统风冷对于此类架构通常不足,因此需要采用液冷解决方案。例如,Cerebras WSE集成了利用水/丙二醇冷却剂循环的液冷系统,每单元能够散发高达15 kW的热量。
微流体冷却技术的进步为提高散热效率提供了另一种方法。该技术在晶圆内部采用蚀刻的微通道,使冷却剂直接流过计算元件,显著降低了热阻和外部冷却所需的能量。实验研究表明,微流体冷却可以将WSE温度保持在55.9°C以下,从而减轻热效率低下的问题。然而,可扩展性挑战和制造复杂性的增加限制了其在商业HPC系统中的广泛采用。
冷却基础设施仍然是数据中心能源消耗的关键组成部分,冷却系统几乎占总能源使用的40%。AI驱动的热管理算法的实施,结合直接芯片液冷技术的进步,使得冷却效率逐步提高。然而,随着计算能力的持续扩展,更积极的冷却解决方案将是维持长期效率提升所必需的。
生命周期和制造碳足迹
虽然能效的提高减少了运营碳排放,但计算硬件的制造和处置仍然是全球碳排放的重要贡献者。研究表明,硬件制造现在占现代计算排放的大部分,高达86%的总碳足迹归因于制造、组装和供应链过程。高纯度硅和稀土金属等原材料的提取和加工需要能源密集型制造过程,这些过程依赖于大规模半导体制造设施。除了生产之外,环境影响还延伸到芯片封装、分销和最终处置,所有这些都导致电子废物的日益积累。
最近为减少与制造相关的碳排放所做的努力包括延长硬件寿命以最大程度地降低周转率,提高半导体组件的可回收性,以及整合节能芯片制造技术。公司也已开始探索低碳计算架构,这些架构采用加工要求较低的替代材料。
可再生能源在可持续计算中的作用
计算行业向可再生能源的转型一直是主要科技公司的重点。谷歌和Meta等公司已实现数据中心运营100%使用可再生能源,有效减少了运营碳足迹。然而,制造对环境的影响基本保持不变,这强调了采取整体方法实现可持续计算的必要性。对数据中心碳强度分析揭示了可持续发展努力的区域差异。例如,美国数据中心报告的平均碳强度为每千瓦时380克二氧化碳,具体取决于能源来源。欧洲数据中心的碳强度较低(约295克二氧化碳/千瓦时),这是由于依赖可再生能源政策。包括中国台湾和新加坡在内的东南亚数据中心的碳强度较高(约500-600克二氧化碳/千瓦时),这是由于对煤炭和天然气的依赖。
通过自适应能源调度优化AI工作负载,即在可再生能源可用性最高时执行计算任务,是进一步减少排放的一种拟议策略。此外,减少对集中式数据中心依赖的去中心化计算框架可以减轻能源传输损耗并提高整体系统可持续性。
总的来说,WSE的部署标志着HPC的变革性转变,在计算效率方面提供了显著的改进,同时也在能源消耗和可持续性方面带来了新的挑战。虽然WSE在AI推理任务中表现出显著的能效提升,但其环境影响超出了运营效率,涵盖了制造排放、冷却基础设施和资源消耗。为了应对这些挑战并开发平衡性能、效率和环境责任的计算基础设施,持续的研究和行业合作将是必要的。
硬件采购成本、功耗、冷却要求和
性能指标比较
尽管 WSE-3 和 H100 等较新的系统已经问世,但 WSE-2 和 A100 仍然是衡量晶圆级 AI 处理器和基于 GPU 的加速器的广泛使用的基准,为架构权衡提供了宝贵的见解。WSE-2 是一种晶圆级 AI 处理器,每套系统成本在 200 万至 300 万美元之间,而 A100 作为一种基于 GPU 的加速器,则显著更经济,根据配置不同,价格范围在 8,000 至 20,000 美元之间。功耗是它们的主要区别之一:WSE-2 每单元消耗约 15 kW,需要先进的液体冷却,而 A100 每块 GPU 功耗约 400 W,通常采用空气冷却。
在性能方面,WSE-2 针对超过 120 万亿参数的模型进行了优化,消除了互连开销,而 A100 提供了比前几代产品 20 倍的性能提升,并支持多实例 GPU (MIG),实现灵活的工作负载管理。在可扩展性方面,WSE-2 专为超大规模 AI 工作负载设计,但缺乏模块化扩展能力,而 A100 在多 GPU 集群(如 DGX SuperPOD)和云服务中具有高度可扩展性。
制造挑战也不同,WSE-2 的晶圆级设计存在缺陷容忍问题,需要冗余核心和缺陷路由,而 A100 遵循传统的基于芯片的方法,确保更高的良率和更易于更换。最终,WSE-2 在大规模深度学习应用中表现出色,而 A100 仍然是可扩展 AI 和 HPC 工作负载更实用和更广泛采用的选择。表 10 总结了 Cerebras WSE-2、Cerebras WSE-3、NVIDIA A100 和 NVIDIA H100 之间的主要区别,重点介绍了成本、功耗、冷却要求、可扩展性和缺陷容忍度方面的差异。
硬件采购成本
获取AI硬件的成本受到架构设计和预期应用场景等因素的影响。高性能的AI加速器,如Cerebras WSE-2和NVIDIA A100 GPU,由于其独特的设计和能力,具有不同的成本结构。据报道,Cerebras WSE-2,这款晶圆级AI加速器,单个系统的价格在200万美元到300万美元之间。这个价格反映了其单片架构,该架构将整个硅片集成到一个AI处理器中,消除了芯片间通信瓶颈,并优化了大规模深度学习工作负载。相比之下,广泛用于AI和高性能计算(HPC)的NVIDIA A100 GPU有多种配置。40GB PCIe型号的价格约为8,000美元至10,000美元,而80GB SXM版本的价格在18,000美元至20,000美元之间。虽然WSE-2为极大规模AI模型提供了无与伦比的计算密度,但A100在需要可扩展、多GPU解决方案的机构中更具成本效益,这些方案可以部署在大型数据中心和云服务中。
AI芯片市场正在快速增长,科技巨头和初创公司都在进行大量投资。这个竞争激烈的市场环境正在推动创新,并可能随着新型、更高效设计的开发而降低成本。AI硬件的能源消耗和环境影响也是关键因素。例如,基于ARM的单板计算机提供了比传统x86和GPU架构更绿色且可能更具成本效益的替代方案,用于训练机器学习算法。AI模型的训练成本正在增加,其中AI加速器芯片是最大的开支之一。这一趋势表明,只有资金充裕的组织才有可能负担得起未来最先进的AI硬件。AI硬件的获取成本主要由架构设计、市场竞争和能源因素驱动。虽然像Cerebras WSE-2这样的高性能系统由于其先进的架构而昂贵,但基于芯片单元的系统和基于ARM的计算机等替代设计提供了更具成本效益的解决方案。AI能力需求的增长继续塑造市场,影响着AI硬件的开发和定价。
冷却要求和基础设施考虑
由于其高功率密度,Cerebras WSE-2需要先进的液冷系统来高效地散热。晶圆级架构由于其密集的核心集成,产生了显著的热负载,迫使数据中心必须配备专门的冷却基础设施。相比之下,NVIDIA A100主要采用空气冷却,尽管一些数据中心配置也采用液冷以优化性能并减少热限制。冷却成本的影响因部署环境而异,WSE-2需要专门的冷却系统,而A100可以部署在现有的空气冷却GPU集群中。因此,在选择这些架构时,必须考虑包括冷却和能源支出在内的基础设施总成本。这些进展表明,先进的冷却系统,特别是液冷,对于管理现代数据中心中的高功率密度和热负载至关重要,重点在于优化能源效率和性能。
性能指标和可扩展性
Cerebras WSE-2和NVIDIA A100都是先进的AI加速器,旨在增强深度学习和AI工作负载的性能和可扩展性。Cerebras WSE-2专注于消除多GPU互连开销,而NVIDIA A100提供显著的性能提升,并支持多实例GPU分区。WSE-2通过使用晶圆大小的芯片架构,设计用于处理极大规模的机器学习模型。它提供了独特的功能,如精细粒度的数据流计算核心和专为机器学习训练设计的互连系统,这使其能够在单一芯片上运行大型模型而无需进行分区。WSE-2的处理器通过解耦内存和计算来实现高吞吐量和高效扩展。
A100 GPU提供比其前身高出20倍的性能,具有第三代张量核心、异步数据移动和改进的内存架构等增强功能。它在AI工作负载中实现了高性能,特别是通过其优化的张量核心,适用于混合精度算术运算。在可扩展性方面,WSE-2的架构通过使用数据并行性实现无缝扩展,避免了GPU集群常见的复杂性和差的扩展性能。这是通过其独特设计实现的,能够高效地将计算和内存需求集成到单个芯片上。A100支持MIG分区,允许将单个GPU划分为多个虚拟GPU,从而提高其在多样化工作负载下的可扩展性。然而,它的性能扩展可能比较复杂,需要精心管理像异步数据移动这样的新架构特性。Cerebras WSE-2和NVIDIA A100都在AI和深度学习任务的性能和可扩展性方面取得了显著进展。WSE-2凭借其独特的晶圆级架构,在处理大型模型方面表现出色,而A100则通过其多实例功能提供了显著的性能提升和灵活性。它们各有优势,WSE-2专注于消除互连开销,而A100则通过创新的GPU功能提升性能。
缺陷容忍和制造产量考虑
晶圆级集成在缺陷容忍和制造产量方面提出了独特的挑战,这直接影响整体生产成本。Cerebras WSE-2作为一款单片晶圆级处理器,由于其大型硅片尺寸,面临更高的制造缺陷风险。晶圆内的缺陷晶体管可能会降低整体芯片产量,需要内置冗余机制来绕过故障区域。与此相反,NVIDIA A100采用传统的单芯片设计,其中有缺陷的单元可以被丢弃或替换,从而提高生产产量并降低每个单位的制造风险。因此,NVIDIA的模块化方法提高了可扩展性和可用性,而Cerebras的晶圆级技术则优先考虑在增加制造复杂度的情况下实现峰值性能。在设计中加入冗余并在制造后重新配置电路是提高缺陷容忍度的常用策略。这些方法可以利用晶圆中的无故障部分,提高产量,而无需进行昂贵的重构。利用软件控制的开关连接晶圆中无故障的部分提供了低成本的连接和运行时故障容忍度,从而通过动态适应缺陷来提高产量。准确的产量预测模型,如广义泊松分布和负二项分布,对于模拟过度分散的缺陷模式和改善产量估算至关重要。
在半导体制造中,准确预测产量和可靠性需要综合模型,这些模型需要考虑缺陷聚集及其在晶圆探针和烧录测试中的影响。这些模型的关键是深入理解缺陷的空间分布,包括聚集模式和径向变化,这对于精确的产量预测和有效的工艺改进至关重要。此外,稳定制造过程以最小化缺陷密度变化对维持高产量和降低生产成本至关重要。这些结合了缺陷建模和过程控制的方法,对于优化半导体制造至关重要。
晶圆级集成需要强大的缺陷容忍和产量增强策略,以应对制造和缺陷分布的复杂性。冗余、重新配置和先进的统计建模等技术对于提高产量和确保成本效益生产至关重要。准确的产量预测和过程稳定性是应对缺陷变异性挑战的关键。
AI硬件的新兴趋势
3D集成
3D集成通过将内存直接堆叠在计算单元上,增强了处理速度并减少了延迟,改善了带宽利用率,并最小化了数据移动。这项技术对于像图形处理、个性化推荐系统和图卷积网络(GCNs)这样的内存和计算密集型应用特别有益。3D集成也被视为提高能源效率的突破。通过减少数据必须传输的距离,降低了功耗,使其成为对能源效率至关重要的移动设备和服务器系统的一个有吸引力的选择。3D堆叠的计算内存(CIM)架构对于GCNs特别有效,因为GCNs既计算密集又内存密集。通过将轻量级计算单元集成到内存存储区附近,像GCIM这样的架构可以显著减少处理延迟和数据传输开销。对于基于深度学习的个性化推荐系统,使用3D堆叠DRAM的近内存处理(NMP)可以缓解内存带宽瓶颈。像RecPIM这样的架构利用3D堆叠内存的高存储器级带宽,实现了显著的加速和能源节省。
3D堆叠DRAM架构非常适合以内存为中心计算系统,在内存密集型应用中,其性能优于传统CPU和GPU。这些系统通过最大化数据带宽利用率,可以实现高并行计算性能。3D集成的主要挑战之一是处理不规则内存访问,这可能导致数据移动效率低下。像GCNim这样的解决方案通过采用混合计算模型和高效数据放置算法来平衡工作负载,从而解决这一问题。虽然通过硅通孔(TSVs)提供了高带宽,但其扩展性较差,这限制了其效能。需要创新架构来克服这些限制,充分发挥3D堆叠内存的潜力。随着内存技术的扩展,可靠性和安全性问题(如RowHammer现象)变得更加突出。解决这些挑战需要新的解决方案和架构,以确保数据完整性和系统稳定性。
总之,3D集成技术为在堆叠架构中结合计算和内存提供了一条有前景的路径,可实现更快的处理速度和更低的延迟。然而,必须解决不规则内存访问和TSV带宽限制等挑战,以充分发挥这项技术的潜力。
光子芯片
将光子芯片集成到AI加速器中是一种有前景的方法,可增强数据传输能力,与传统电子系统相比,提供更高的带宽和能效。该技术利用光线的独特属性,克服了电子数据传输的限制,特别是在AI日益增长的计算需求背景下。光子芯片在带宽和延迟方面具有显著优势。使用光线实现高速数据传输,这对于需要快速处理大型数据集的AI应用至关重要。光子集成电路(PICs)通过波分复用(WDM)等技术实现高带宽和低延迟,允许多个数据流通过单根光纤同时传输。
光子芯片的关键优势之一是其能效。光学数据链接的能耗远低于电子链接,某些系统可实现低至120 fJ/位的通信能耗。这种效率通过光子和电子组件的密集集成实现,减少了数据传输所需的能量。光子加速器还利用非易失性存储器和被动组件,进一步降低操作期间的功耗。
光子芯片通常与现有电子系统集成以提升性能。这种混合方法结合了两者的优势,利用光子技术进行数据传输,电子技术进行逻辑控制和数据存储。硅光子技术与互补金属氧化物半导体(CMOS)工艺的兼容性促进了这种集成,实现了可扩展的制造。
为了最大限度地发挥光子芯片的潜力,创新架构正在开发中,例如时分复用动态光子张量核和光子神经网络加速器。这些架构采用定制的光子器件和先进的复用技术,以实现高计算效率和并行性,这对于处理复杂的AI任务至关重要。
尽管光子芯片具有诸多优势,但仍面临挑战,例如光子器件尺寸较大和需要专用光学元件。解决这些问题需要电光材料和封装策略方面的进步,以提高光子系统的性能和集成度。
高熵合金(High-entropy alloys)
高熵合金(HEAs)是一类由多种主要元素以近乎等摩尔分数组成的新型材料。这些合金因其独特的性能而备受关注,适用于多种应用,包括改善散热和增强AI工作负载的芯片可靠性。HEAs具有优异的热稳定性和高强度,使其成为高温应用的理想选择。与镍基超合金不同,HEAs在高温下仍能保持强度,使其成为替代传统材料的强有力候选者。
HEAs提供卓越的耐腐蚀和抗氧化性能,这对于在恶劣环境下的可靠性至关重要。其独特的微观结构和相组成增强了这种韧性。例如,CoCrFeMnNi HEA在室温下的屈服强度约为600 MPa,即使在低温(77 K)下仍保持高延展性(约50%)。AlCoCrFeNi HEA的维氏硬度约为700 HV,远高于传统不锈钢(约200 HV)。某些HEAs(如AlCrFeNiTi)在1000°C时形成保护性氧化层,与传统超合金相比具有更强的抗氧化性。CoCrFeNiTi等HEAs的磨损率约为2 × 10?? mm3/Nm,远低于常规钢材。一些HEAs在高辐射环境中比传统钢材的空隙膨胀率低5–10倍。
HEAs以其高强度、硬度和优异的机械性能而闻名,即使在低温下也是如此。这包括卓越的延展性和断裂韧性,这些对于要求苛刻的应用中材料的耐久性和寿命至关重要。HEAs的高热稳定性和导热性增强了电子元件的散热能力,确保AI工作负载的持续性能和可靠性。由于其机械鲁棒性和对环境劣化的抵抗力,HEAs提高了AI应用中芯片的可靠性,降低了故障率并延长了使用寿命。
总之,高熵合金(HEAs)为开发满足现代AI工作负载苛刻要求的材料提供了一条有前景的途径。其独特的性能,结合克服制造和设计挑战的持续研究,使HEAs成为未来高性能计算(HPC)和电子领域的关键材料。
计算存储一体化(CIM)
内存计算和计算存储一体化(CIM)是新兴的计算范式,旨在克服传统冯·诺伊曼架构的限制,特别是内存墙问题。这些方法将计算集成到内存单元中,显著提高能效和吞吐量,特别适用于深度学习等数据密集型应用。这种方法通过直接在内存单元内执行计算,减少了在独立处理单元和内存单元之间传输数据的需要。它利用内存设备的物理属性(如电阻切换)来原地执行计算任务。CIM正在探索多种内存技术,包括SRAM、RRAM和新兴的二维(2D)材料。这些技术在速度、能效和可扩展性方面具有不同的优势。CIM对深度学习工作负载尤其有益,可以显著提高乘加运算的速度和能效,这是神经网络处理的核心组成部分。通过将计算集成到内存中,CIM可以更高效地处理大规模数据中心应用,降低数据移动相关的时间和能耗成本。CIM的主要挑战之一是平衡能效与计算精度。内存中的模拟计算可能受到变异和非理想因素的影响,从而影响精度。随着CIM技术的进步,向更小技术节点的扩展带来了机遇和挑战。特别是基于SRAM的数字CIM因其在先进节点上有效扩展的潜力而受到关注。未来的研究重点是开发能够充分利用CIM潜力的架构,包括流水线模式和稀疏感知技术,以提升性能和效率。
总之,CIM技术为克服传统计算架构的限制提供了一个有前景的方向,特别适用于需要高数据吞吐量和能效的应用。然而,精度、可扩展性和集成方面的挑战仍是活跃的研究和开发领域。
新兴硬件趋势比较
在AI硬件的3D集成、光子芯片和高熵合金(HEAs)中,光子芯片可能是最昂贵的,原因有以下几点。首先,其制造成本高,需要专门的半导体代工厂和精密的纳米制造技术。此外,其材料和设计的复杂性增加了成本,因为它们依赖于硅光子、磷化铟和铌酸锂等特殊材料。此外,光子芯片的大规模生产受限,因为它们仍处于早期采用阶段,缺乏大规模制造效率。最后,其专门的封装和集成增加了成本,因为它们需要与电子组件共同封装,增加了复杂性和总体费用。
在AI硬件的效率方面,光子芯片在AI工作负载中能效最高,因为它们使用光信号而非电信号,显著降低了功耗和散热。它们在超快数据传输和并行处理方面表现出色,非常适合高速计算。3D集成通过最小化内存和计算单元之间的数据移动瓶颈来提高效率,从而降低延迟并改善每瓦性能。同时,HEAs通过增强热学和机械效率提高了硬件的耐用性和抗磨损能力,尽管它们对计算效率的直接提升有限。总体而言,光子芯片在功耗效率和速度方面表现最佳,特别适用于处理大规模计算的AI加速器。
先进半导体制造:
工艺节点缩放与现代范式
工艺节点缩放的演变
半导体缩放的历史轨迹,通常由摩尔定律概括,传统上强调每个后续工艺节点在晶体管速度、能效和每晶体管成本方面的提升。然而,随着行业发展到16纳米节点之后,缩放的动机和成果发生了变化。早期的节点,如7纳米和5纳米,在晶体管密度、动态功耗降低和每瓦性能提升方面带来了显著收益,但这些优势在3纳米和2纳米节点上变得不那么明显。当代缩放努力优先考虑晶体管密度和异构集成,而不是单纯提升开关速度或电源效率。
在这些先进节点上,仅靠尺寸缩小已无法保证性能和功耗的缩放。漏电流增加、工艺变异性和互连寄生效应等因素削弱了较小几何尺寸的传统优势。相反,现代半导体进步依赖于架构创新和系统级优化。环绕栅极(GAA)和互补场效应晶体管(CFET)架构已成为密度缩放和改善静电控制的关键推动因素,特别是在低于5纳米的尺寸下。此外,设计-技术协同优化(DTCO)、多芯片封装以及新型材料和晶体管结构的引入在维持进步中扮演着日益关键的角色。
例如,虽然3纳米工艺相比7纳米工艺可实现高达70%的晶体管密度提升,但性能和功耗收益在很大程度上取决于工作负载特性和架构设计。为解决漏电和变异性等挑战,高级技术——包括三阈值CMOS、自适应体偏置和工艺变异感知设计——已成为不可或缺的手段。此外,2D材料、陡坡晶体管和单片3D集成等探索性方法正在研究中,以缓解功耗、热量和变异性约束,同时延长缩放的可行性。
晶体管架构:从FinFET到GAA和CFET
从鳍式场效应晶体管(FinFET)到环绕栅极(GAA)架构的转变代表了晶体管设计的重大演变,解决了5纳米以下节点短沟道效应和漏电流的限制。GAA晶体管以堆叠纳米片FET为代表,通过栅极环绕沟道增强静电控制,从而改善驱动电流、短沟道行为和相比FinFET的可扩展性。这些特性使GAA成为先进节点(如三星的3纳米工艺)的基石。
在GAA基础上,互补场效应晶体管(CFET)架构引入了n型和p型GAA晶体管的垂直堆叠配置,有效在相同占地面积内将晶体管密度翻倍。这一创新为超越横向缩放限制、延续摩尔定律提供了途径。然而,GAA和CFET技术的采用并非没有挑战。制造复杂性,包括线边缘粗糙度、功函数变异性和热预算限制,对良率和成本可扩展性构成了重大障碍。针对高迁移率材料(如锗和二维半导体)的研究旨在克服这些制造和性能壁垒。
先进封装:台积电的CoWoS平台
与晶体管级进步并行,封装技术在推动系统级性能方面变得至关重要。台积电的CoWoS平台通过硅中介层实现计算和内存芯片的高密度集成,体现了这一趋势。CoWoS支持高带宽内存(HBM)集成、大型芯片聚合以及高效的热管理和电源管理,使其成为AI和高性能计算(HPC)应用的关键。
CoWoS-S和CoWoS-L等变体增强了电源传输和信号完整性,而微冷却解决方案和深槽电容器等补充创新则在高热负荷下提升了性能可靠性。这些发展凸显了行业向异构集成和3D系统架构的更广泛转变,这些架构日益取代传统缩放来驱动性能提升。
半导体行业已进入一个新时代,工艺节点缩放超越了简单的尺寸缩小,拥抱架构创新、系统级集成和先进封装以维持进步。虽然GAA和CFET架构推动了晶体管密度和控制的边界,但CoWoS等封装解决方案重新定义了性能范式。然而,变异性、成本和热管理方面的挑战需要材料、设计方法和制造工艺的持续创新,以充分发挥这些进步的潜力。
结论
未来十年,人工智能硬件的演变将经历重大变革,受到对计算能力、效率和可扩展性日益增长的需求的推动。对晶圆级系统(WSEs)与基于GPU架构的比较分析表明,尽管WSEs在能效和吞吐量方面展现了显著进步,但由于其灵活性和对现有AI工作负载的优化,GPU集群在AI模型训练中仍占据主导地位。例如,Cerebras WSE-3和特斯拉Dojo训练瓦片在训练大规模AI模型方面表现出色。Cerebras WSE-3采用台积电5纳米工艺,拥有90万个AI核心和44GB片上SRAM,互连带宽高达21 PB/s。这种高带宽和低延迟显著减少了数据移动,提升了性能,尤其对万亿参数模型有利,使训练百亿参数模型在一天内成为可能。
另一方面,以NVIDIA H100为代表的GPU集群在MLPerf基准测试中继续占据主导地位,性能比其前代A100提高了6.7倍。然而,在超大规模模型训练中,GPU架构可能受限于芯片间通信开销。在能效方面,WSE-3在不增加功耗的情况下将训练速度翻倍,展示了其在规模扩展应用中的巨大潜力。尽管如此,基于GPU的集群也在持续优化架构以提高效率。两种架构都面临高功耗、冷却需求以及制造过程碳足迹的挑战。
本研究对现有的晶圆级AI加速器和传统单芯片GPU进行了全面比较分析。分析表明,随着AI模型扩展到万亿参数,传统GPU架构在可扩展性、能效和通信带宽方面的限制变得日益明显。相比之下,Cerebras WSE-3和特斯拉Dojo等晶圆级系统采用单片设计,在单一晶圆上集成数十亿晶体管和数十万核心。这种架构大幅降低了芯片间通信延迟并提升了吞吐量,从而无需复杂模型分区即可高效训练超大规模AI模型。
随着领域的发展,未来的进步可能集中在3D集成、光学互连和更高效的电源管理技术上,进一步缩小WSE与GPU之间的性能差距。这些技术在半导体创新和AI工作负载优化的驱动下,将塑造下一代计算,在万亿参数AI模型时代平衡可扩展性、效率和可持续性。
NVIDIA首席执行官黄仁勋一再强调,摩尔定律已不足以满足AI工作负载的指数增长。相反,计算的未来将依赖于加速计算、特定领域架构以及超越传统晶体管缩放的创新。他的愿景与向晶圆级计算、基于小芯片的架构和异构计算模型的转变相一致。在未来5-10年,AI硬件预计将经历变革性进步,受到更高计算效率(图5)、能源优化和可扩展性需求的推动。
图5. AI硬件的预测性能和关键指标增益。(A) 2025年至2030年晶圆级系统(WSEs)、传统GPU和新兴AI硬件技术的预测性能和效率趋势。预计晶圆级系统将保持性能领先,而新兴技术由于快速创新将在后期逐渐缩小差距。(B) 2025年和2030年WSE、GPU和新兴技术在三个关键指标——FLOPS、功耗降低和可扩展性——的比较分析。数据显示显著的预测改进,特别是WSE在可扩展性方面和新兴技术在效率方面的提升,凸显了AI硬件平台不同的优势和未来发展方向。
术语解释
性能:指系统的计算能力,通常以每秒浮点运算次数(FLOPS)衡量,量化系统在给定...