(原标题:这颗不被看好的芯片,终于翻身?)
公众号记得加星标,第一时间看推送不会错过。
这两天,谷歌TPU彻底火了。
据国外媒体报道,Meta正考虑从2027年起在其数据中心部署谷歌的TPU(张量处理单元),潜在合同金额达数十亿美元。消息一出,谷歌股价盘前暴涨超4%,而英伟达股价则一度下跌超4%。
这不是TPU第一次震撼业界。就在此前不久,谷歌发布的Gemini 3大模型全程使用TPU训练,横扫各大基准测试榜单,月活用户突破6.5亿。AI初创企业Anthropic更是宣布将部署多达100万个谷歌TPU芯片,交易价值数百亿美元。
谷歌今年正式发布第七代TPU芯片Ironwood,单芯片峰值算力达到4614 TFLOPS,在训练和推理方面的性能比上一代提升了4倍多,被称为“迄今为止性能最强、能效最高的定制芯片”。最高配集群可连接9216个液冷芯片,峰值算力可达42.5 ExaFLOPS,是世界上最大超级计算机的24倍以上。
从“不被看好的救命项目”到如今可能撼动英伟达霸权的战略级武器,TPU用十年时间完成了惊人的蜕变。
被迫自研
时间回到2013年,谷歌内部爆发了一场算力危机。
当时,谷歌的研究人员做出了一个惊人的预测:如果全球仅1亿安卓用户每天使用语音搜索并通过神经网络进行3分钟的语音识别,所消耗的算力就将是谷歌所有数据中心总算力的两倍。而当时全球安卓用户远不止1亿。如果仅通过扩大数据中心规模来满足需求,不仅耗时,成本更是高得惊人。
当时市面上有三个选择:继续使用CPU、购买英伟达GPU,或者自研ASIC芯片。
虽然英伟达GPU已经非常成熟,可以立即购买,但谷歌经过评估后发现,依赖GPU存在两个致命问题:一是GPU并非完全专门用于深度学习计算,在谷歌的规模下,效率损失意味着巨大的成本浪费;二是将对谷歌战略至关重要的硬件完全依赖单一供应商,风险太大。
当时谷歌团队研究了市面上所有算力解决方案,最终全部被高层否决。开发公司内部的深度学习专用处理器芯片,成为谷歌的不二之选。
但问题在于,开发ASIC芯片通常需要数年时间和高昂成本,在AI快速发展的时代,谷歌等不起。这个项目的目标非常明确:必须快速向数据中心交付硬件,而且要大规模交付。目标是开发一个与GPU相比,在推理上产生10倍成本性能优势的ASIC。
谷歌迅速行动起来,挖来了惠普智能基础设施实验室高级总监Norm Jouppi、Arm架构开发商Calxeda的SoC工程总监Richard Ho等一批芯片行业资深人才,还与另一位巨头——博通达成了合作。
通常一个芯片的开发需要几年时间,但谷歌只用了15个月就完成了从立项到大规模部署。
TPU项目负责人Norm Jouppi回忆道:“芯片设计过程异常迅速,这本身就是一项非凡的成就。更出乎意料的是,首批交付的硅片无需进行任何错误修正以及掩膜的更改,而正在同步进行的还有团队组建,RTL设计专家、验证专家都急需补充,整个工作节奏非常紧张。”
2015年,第一代TPU悄然诞生。它采用28nm制程工艺,专为推理设计,虽然参数在今天看来并不出众,但在当时却带来了15-30倍的性能提升和30-80倍的能效提升。
TPU的核心创新在于采用了“脉动阵列”(Systolic Array)架构。这是一个由65536个乘法单元构成的256×256网格,数据像血液一样有节奏地流过处理单元,每个单元只做乘法和累加,然后将结果传递给下一个。这种设计使数据在阵列内部被高度复用,最大限度减少了对高延迟、高功耗主内存的访问。
更关键的是,TPU采用了“提前编译"”策略。编译器在程序运行前就完整规划好了所有数据路径,这种确定性使其无需复杂的缓存机制,从而大幅降低了能耗。
但最初,业界对TPU并不看好。
当谷歌发布TPU架构细节和性能指标时,立刻引发了激烈争议。英伟达加速计算副总裁Ian Buck毫不客气地回应:“Kepler是2009年设计的,用于解决传统高性能计算问题。当Kepler设计时,GPU深度学习研究甚至还没开始。”他强调,英伟达在Maxwell和Pascal两代GPU上已专门针对机器学习做了大量优化。
英伟达随即公布了自己的基准测试结果。在GoogLeNet推理工作负载上,要求99%的交易响应时间低于10毫秒的前提下,TPU能处理28万次推理/秒,而Pascal P40能处理56万次/秒——整整两倍于TPU。即使是更小的Tesla P4,性能也与TPU基本持平。
更致命的质疑来自成本层面。Buck直言不讳地表示:“GPU单位性能的成本应该远低于TPU。"他指出,P4加速卡售价约2100美元,P40约4700美元。如果谷歌开发和制造TPU的总成本无法在性价比上超越这些GPU,那么自研芯片在经济上就毫无意义。
英伟达还预测,未来的Volta架构GPU将把机器学习推理性能再翻一番。届时,升级了GDDR5内存的TPU也只能勉强追平Volta的性能。“对于市场上其他公司来说,为AI开发定制ASIC是一项极其昂贵且具有挑战性的任务。”Buck的言外之意很明确:在GPU年年迭代的节奏下,定制芯片的风险太高。
业界普遍都在质疑:谷歌为什么要冒险自研?如果GPU能满足需求,为什么还要承担巨额研发成本和供应链风险?
这个问题的答案,要等到几年后才逐渐清晰。谷歌最看重的不是单卡峰值性能,而是在其特定工作负载下的总拥有成本(TCO)。TPU虽然在通用基准测试中不一定占优,但在谷歌的实际应用场景中,能够以更低的功耗实现足够的性能,并且完全按照谷歌的需求定制。
更重要的是,自研芯片让谷歌掌握了战略主动权。它不必担心供应商涨价,不必受制于GPU的产品路线图,可以根据自身需求随时调整芯片设计。
现实很快就打了包括英伟达在内的所有人的脸——TPU最终生产了超过10万颗,在广告、搜索、语音、AlphaGo甚至自动驾驶等领域被广泛采用。
2016年,在举世瞩目的AlphaGo对战李世石的比赛中,TPU正式亮相。当时AlphaGo仅部署了48个TPU,就战胜了之前内置1202个CPU和176个GPU的版本,这一战让TPU彻底出圈。
迭代突破:从 v1 到 v7 的十年征程
TPU v2(2017):从推理到训练的跨越
第一代TPU在加速推理方面惊艳业界,但它无法参与训练,这成为深度学习继续扩展的最大瓶颈。谷歌通过内部大规模训练任务发现:推理是“跑刷新视频”,训练才是“拍电影本身”,二者的计算差距不止一星半点。在这样的背景下,TPU v2 的目标不再是做一颗快芯片,而是承担起支撑未来数十亿参数模型的训练任务,基础定位发生彻底变化。
TPU v2最重要的创新,是谷歌亲手定义了深度学习时代的核心数值格式——bfloat16。它保留FP32的动态范围,同时把精度砍半,既保证模型训练稳定性,又让吞吐和能效大幅提升。与此同时,谷歌将片上高带宽内存扩充至16GB,并将带宽提升到600GB/s,为训练阶段的巨量数据流动提供高速通道。更加大胆的是全新的“2D环形互连”(ICI),首次将 256 颗 TPU 以低延迟网络串成一个训练阵列。
当年发布的 TPU v2 Pod,峰值算力达到 11.5 PetaFLOPS,标志着谷歌真正迈向“AI超级计算基础设施提供者”的道路。v2 奠定了此后 TPU 系列作为“训练集群核心”的角色,也开始推动行业从单卡竞争转向“集群规模+互连架构”的新赛道。它不仅是 TPU 的一次升级,更是谷歌 AI 基础架构战略的第一次大方向转折。
TPU v3(2018):液冷时代的开启
仅仅一年后,TPU v3 将整体性能再次翻倍,单个 Pod 的芯片数增至 1024 颗,训练能力大幅提升。然而性能爆发也带来副作用:单颗 TPU v3 功耗飙升至 450W,大规模集群意味着要同时处理上百千瓦的热量。传统风冷方案完全无法承载如此密度,这成为谷歌必须正面突破的技术难题。
面对散热瓶颈,谷歌作出关键决策——全面转向液冷。TPU v3 集群首次采用直接液冷方案,让冷却液贴身吸走芯片产生的热量。对于数据中心而言,这是基础设施层的结构性变革,意味着从服务器机架、管路布设到能耗管理,全都要为AI计算重新设计。液冷的引入,也宣告 TPU 进入“超高功率密度计算”的新纪元。
谷歌通过 v3 建立起在大规模训练基础设施中的工程优势,奠定了后续 TPU 超大规模集群能力的物理基础,也让液冷成为之后 AI 数据中心的主流趋势。
TPU v4(2022):光电互连的革命
当模型规模进入数百亿甚至万亿参数时代,集群规模成为性能的决定性因素。传统固定拓扑的互连网络很快遇到瓶颈——模型结构不同、训练阶段不同,对通信模式的需求也不同。TPU v4 面临的核心挑战,不只是提升速度,而是让网络能够随任务而变。
2022年的TPU v4 的最大突破是引入 OCS(Optical Circuit Switch)光电路交换技术,让互连从“固定拓扑”变成“动态可编程”。系统通过微镜阵列在毫秒级别切换光路,能够为不同规模、不同训练阶段的任务创建最优连接结构。与此同时,TPU v4采用3D环面拓扑,单集群规模扩大至 4096 颗芯片,在 7nm 工艺的加持下,整体能效比上一代更高。
OCS 技术的引入,直接推动行业把“可重构光网络”纳入超算与大型训练集群的标准方案,也成为谷歌后续更大规模训练系统的基石。
TPU v5p(2023):向训练与推理双强进化
随着 Transformer 家族模型不断膨胀,训练的需求依然高涨,但推理成为新的成本黑洞。谷歌意识到:如果 TPU 只盯着训练,将在推理市场失去阵地;若只盯推理,又会失去在大型模型训练上的领导地位。因此,v5p 的使命是打造一颗“训练强、推理也强”的全能计算核心。
TPU v5p 将集群规模提升至 8960 颗芯片,并将芯片间互连带宽翻倍至 1200GB/s,同时升级至 800G OSFP 光模块,实现更高密度、更低延迟的通信。无论是在超大规模模型训练,还是在大型在线推理服务的吞吐表现上,v5p 都相比上一代实现显著跃升,成为泛AI负载加速器。
v5p 的定位转变十分关键:谷歌正式不再把 TPU 限制为训练芯片,而是把它推向更广泛的推理市场。这是一次战略上的扩圈,使 TPU 在未来大型 AI 服务中具备更广泛的应用空间。v5p 为 TPU v6 和 v7 的“推理强化路线”打下基础,也标志着 TPU 产品线从单一场景走向通用化的转折点。
TPU v6(2024):推理时代的宣言
进入 2024 年,全球 AI 公司最大的开销已经不再是训练,而是推理。随着数十亿用户每天调用大模型服务,推理成为全行业的成本中心。谷歌意识到:谁能把推理成本压下来,谁就能赢得下一阶段的 AI 服务竞争。TPU v6(Trillium)因此被定义为面向推理进行架构重做的产品。
TPU v6 的架构围绕推理重新设计:FP8 算力吞吐显著提升,使大模型推理的性价比大幅改进;片上 SRAM 容量翻倍,减少访问 HBM 的能耗和延迟;整体能效比上一代提升 67%,在同等功耗下获得显著更高的吞吐。这些设计都直指推理任务的痛点——带宽、延迟、能效。
Trillium 的推出,是谷歌向行业宣告:TPU 的主战场不再局限于训练,而是全力进攻推理。凭借能效优势,v6 成为谷歌内部搜索、广告、YouTube 推荐以及 Gemini 系列模型推理的主力引擎,在规模化部署中具备极高成本优势。TPU 自此彻底进入“推理优先”的时代,为 v7 Ironwood 的到来铺平道路。
TPU v7 Ironwood(2025):正面交锋英伟达
如果说过去的 TPU 主要在自家生态中使用,那么 TPU v7 Ironwood 的定位完全不同:这是谷歌第一次在推理芯片性能上正面向英伟达开火。其单芯片 FP8 峰值算力达到 4614 TFLOPS,略高于英伟达 B200 的 4500 TFLOPS,标志着 TPU 在推理性能上首次反压 NVIDIA。
Ironwood 配备 192GB HBM3e,带宽高达 7.2TB/s,使其能更轻松承载数百亿到上千亿参数的推理任务。最高支持 9216 颗液冷芯片组成集群,峰值算力可达 42.5 ExaFLOPS,是当前业内最大的专用推理集群之一。在延迟、吞吐、能效方面都达到行业顶尖水准。
Ironwood 标志着 TPU 历史上的新阶段——谷歌第一次把 TPU 产品推向开放竞争场,并将其作为与英伟达抗衡的主动武器。象征 TPU 从追赶时代迈入进攻时代,也标志着谷歌在 AI 基础设施竞争中不再只依赖规模,而是开始以性能和产品力正面对垒。
英伟达GPU霸权,面临动摇
过去十年,TPU主要服务于谷歌内部,但现在谷歌已开始积极推动TPU的商业化。
2024年夏天,谷歌开始与主要出租英伟达芯片的小型云服务提供商接洽,探讨在其数据中心托管TPU的可能性。目前已与伦敦Fluidstack达成协议,将在纽约数据中心部署TPU。若Fluidstack无法支付即将到期的纽约数据中心租赁费用,谷歌将提供高达32亿美元的兜底担保——这手法几乎复刻英伟达当初扶持CoreWeave的策略。
谷歌还开始向Meta、大型金融机构等推介在其自有数据中心部署TPU的方案。知情人士透露,谷歌云部门部分高管预测,这类业务可能为谷歌带来数十亿美元的年收入,帮助谷歌拿下英伟达10%的年营收盘子。
为推动TPU本地部署,谷歌还专门开发了“谷歌版CUDA”——TPU command center,简化客户的TPU使用流程。虽然谷歌为TPU打造的编程语言Jax普及度远不及CUDA,但谷歌向客户承诺,可借助PyTorch生态工具与TPU command center交互,无需精通Jax。
野村证券指出,预计到2026年,ASIC总出货量很可能会第一次超过GPU。而TPU正是目前最成熟的ASIC。2025年,谷歌TPU的全年出货量预计为250万片,到2026年将超过300万片。
随着TPU的崛起,英伟达感受到了前所未有的压力。
2025年11月26日凌晨,在谷歌TPU Ironwood正式上市和Meta考虑采购TPU的消息传出后,英伟达罕见发布紧急声明回应:“我们对谷歌的成功感到高兴——他们在人工智能领域取得了重大进展,而我们仍将继续向谷歌供货。英伟达领先行业整整一代,是唯一能够运行所有AI模型,并可在所有计算场景中部署的平台。”
这条声明浏览量破150万,评论超750个,成为AI圈爆火内容。当天英伟达股价下跌2.59%,而自10月底以来,英伟达市值已缩水超5万亿人民币。
但竞争远未结束。谷歌自己也承认,TPU和英伟达GPU的需求都在加速增长,公司会继续同时支持两种芯片。事实上,即使谷歌成功开发了TPU,仍在大量采购英伟达GPU。2024年,谷歌订购了约16.9万台Hopper架构GPU,同时内部已部署约150万颗TPU。
业内更多观点认为,未来更可能呈现ASIC和GPU异构部署,而不是哪一种架构一统天下。TPU的优势在于针对特定任务的极致优化和能效比,而GPU的优势在于通用性、灵活性和完整的生态系统。
TPU团队的快速流失
TPU的成功吸引了整个行业的目光,也引发了激烈的人才争夺战。
2015年,风险投资家Chamath Palihapitiya在谷歌财报会上无意间了解到谷歌正在自研AI芯片。他敏锐地意识到这是一次芯片创新的机会,开始对谷歌TPU团队工程师进行人才mapping。
2016年底,在谷歌TPU核心团队的十人中,有八人悄悄离职,由前谷歌高级工程师Jonathan Ross带队,在加州山景城创办了Groq公司。这批人带走了TPU最核心的技术理念和设计经验。
Groq推出的LPU(语言处理单元)芯片,推理速度达到英伟达GPU的10倍,成本只有其1/10。虽然在总体拥有成本上仍有争议,但其展现的技术路线为行业带来了新思路。2024年8月,Groq完成由贝莱德领投的6.4亿美元融资,估值达到28亿美元。Meta首席AI科学家Yann LeCun更是公开称赞:"Groq芯片确实直击要害。"
OpenAI同样也在挖角谷歌。Sam Altman制定的用人法则只有一条:要么现在在谷歌,要么之前在谷歌。为了推进激进的7万亿美元自研芯片战略,OpenAI近一年来大量挖角谷歌TPU团队。
值得注意的是,Sam Altman搭建了以前谷歌高级工程总监Richard Ho为首的硬件研发团队,主要成员包括Tensor SoC负责人Ravi Narayanaswami、高级硬件工程师Thomas Norrie、技术经理Sara Zebian、研究科学家Phitchaya以及设计验证经理Jerry Huang等人。
2024年10月,OpenAI宣布与博通及台积电达成合作,计划于2026年生产首个定制芯片。这支由前谷歌TPU核心成员组成的团队,正在为OpenAI打造下一代AI芯片。
此外,TPU的成功促使许多公司构建自己的AI芯片。亚马逊推出了Trainium和Inferentia,微软开发了Maia,特斯拉打造了Dojo。初创公司如Cerebras、SambaNova、Graphcore等也纷纷入局。
这些公司的芯片团队中,都能找到前TPU成员的身影。谷歌TPU项目,已经成为AI芯片行业的“黄埔军校”。
从2015年为了解决AI计算效率瓶颈被迫自研,到2025年即将把TPU部署到客户自有数据中心,谷歌用十年时间,把一个“不得不做的救命项目”,一步步打造成可能撼动英伟达霸权的战略级武器。
TPU的成功证明了几点:
第一,专用芯片大有可为。在特定领域,ASIC可以实现比通用芯片高出数十倍的能效比。随着AI应用的深入,会有越来越多的公司选择定制化芯片。
第二,软硬件协同是关键。谷歌之所以能成功,不仅因为硬件设计出色,更因为拥有TensorFlow、JAX等软件生态,以及海量的内部应用场景来验证和优化。这种垂直整合能力是多数公司难以复制的。
第三,算力竞争的本质是成本竞争。TPU从来不是为了和谁比单卡性能,而是为了让AI真正跑得起、赚得到钱。在推理成本成为AI公司最大开支的今天,谁能提供性价比最高的算力,谁就能赢得市场。
第四,生态系统仍是关键壁垒。尽管TPU技术先进,但英伟达的CUDA生态系统依然强大。未来的竞争,不仅是芯片性能的比拼,更是生态系统的较量。
展望未来,AI基础设施将从“自建GPU集群”转向“云+专用芯片+混合部署”的全新形态。GPU、TPU、定制ASIC将各展所长,形成多样化共存的生态。这不仅会打破英伟达的长期垄断,也将为整个AI产业带来新的发展机遇。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4241期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
