(原标题:AI GPU“宏大叙事”走向崩塌 英伟达(NVDA.US)泡沫破裂从现在开始?)
围绕英伟达AI GPU的AI算力产业链自今年以来可谓接连遭受重锤,产业链的股票标的近期波动可谓十分剧烈。随着DeepSeek等人工智能初创势力彻底掀起AI训练与推理层面的“效率革命”,可谓推动未来AI大模型开发趋势向“低成本”与“高能效”两大核心全面聚焦,而不是疯狂烧钱用“大力出奇迹”方式训练人工智能大模型,令高盛等华尔街投资机构大幅下调2025年和2026年AI服务器需求预期,并且有机构感叹AI GPU算力产业链的超级龙头——市值高达2.78万亿美元的英伟达(NVDA.US)“泡沫破裂时刻”,终究还是到来了。
从1月底开源大模型DeepSeek-R1横空出世所引领的“极低成本AI训练/推理”新范式大幅精简AI大模型部署工作负载,在当时导致英伟达单日的市值蒸发规模达到5890亿美元,为美国股市历史上最大规模市值损失打破此前纪录,到近期阿里巴巴推出比主流大模型参数规模小得多的QwQ-32B,但是该模型在多项权威评测集中的表现却与671B满血版De-e-p-S-e-ek-R1旗鼓相当,再到同样来自中国的蚂蚁集团开发与训练出使用中国产芯片所打造的AI大模型,据称可将整体成本降低20%。
更重磅的消息则在于阿里巴巴集团董事会主席蔡崇信警告称,美国AI数据中心建设可能正在形成泡沫,加之华尔街大行高盛下调全球AI服务器出货量,并且全线下调来自中国台湾的全球AI算力产业链核心公司的目标股价,以及此前在2月24日重磅透露出美国科技巨头微软将撤掉两个大型数据中心租约这一消息的知名投资机构TD Cowen再爆猛料。
据悉,TD Cowen当地时间周三曝出微软砍掉一部分数据中心项目的重磅AI算力产业链利空,这一消息也是带崩美股AI芯片等AI算力类股票的核心逻辑。截至周三美股收盘,英伟达股价跌近6%,市值一夜蒸发约1700亿美元,涵盖全球最顶级科技公司的纳斯达克100指数跌近2%。当地时间3月26日周三,TD Cowen分析师团队表示,微软放弃位于美国和欧洲的一部分新数据中心项目,这些项目原计划消耗2吉瓦电力,分析师们将微软最新举动归因于支撑人工智能算力的英伟达AI GPU服务器集群供过于求。
自2023年以来支撑北美以及日韩、中国台湾股票市场的英伟达AI GPU算力产业链股价持续暴涨的最核心逻辑支撑,即AI GPU算力“宏大叙事”逻辑——指的是AI GPU需求远超供给预期、AI算力资源的需求前景过于强劲以至于长期看不到尽头的“宏大叙事”逻辑,有越来越多迹象显示这种恢弘且长期深入投资者脑海的AI GPU算力“宏大叙事”正在不可避免地走向土崩瓦解境地。
AI训练/推理转向低成本方案,英伟达“黄金时代”将落幕?
驻扎Seeking Alpha的投资机构Hunter Wolf Research近日将英伟达股票评级从“强力买入”大幅下调至“卖出”,目标股价仅仅112美元,主要因AI训练/推理对于英伟达超高性能AI GPU以及搭载这些AI GPU的高性能服务器集群依赖程度明显降低。截至周三美股收盘,英伟达股价收跌5.74%,至113.760美元,与Hunter Wolf Research大幅下调后的目标价趋于一致。
Hunter Wolf Research预计,随着全球AI行业即将进入AI推理阶段及ASIC等较低成本的AI算力解决方案普及,英伟达高端AI GPU的黄金增长期即将结束。
Hunter Wolf Research预计2027财年,因低成本AI算力方案以及微软、亚马逊AWS等云计算巨头们更倾向于AI ASIC,英伟达的核心业务部门——包含Hopper以及Blackwell架构AI GPU销售额的数据中心业务增速可能下降至30%,预计2028-2030财年,AI算力领域彻底进入推理主导阶段,英伟达数据中心业务增速将降至20%,预计2033财年后AI市场成熟,增速进一步降至10%。
据了解,3月11日,中国科技巨头阿里巴巴(BABA.US)旗下蚂蚁集团发表关于混合专家模型(MoE)的研究论文,关键结论显示:3000亿参数MoE大语言模型(LLM)可采用较低性能的GPU进行训练工作负载,相较纯粹的英伟达H800方案可降低20%成本;其自研AI芯片(基于华为/阿里AI芯片解决方案,被业内视为AI ASIC解决方案)训练的Ling-Plus和Ling-Lite AI大模型模型,性能全面超越Meta的开源大模型LLaMA及DeepSeek开源大模型。
蚂蚁集团通过对AI大模型架构、训练策略、异构处理以及模型评估效率等AI训练核心环节的优化,实现了无需大幅依赖高端英伟达AI GPU的高效AI训练。尤其是蚂蚁Ling团队提出模型可以在异构设备和分布式集群间灵活调度,利用多个国产AI算力芯片并行来满足高并发推理需求,例如,在推理服务高峰期,如果缺少H100等高端AI GPU算力,可以调度更多国产加速卡扩展集群规模,以平稳支撑推理负载,确保Ling-Plus和Ling-Lite推理部署具备灵活性和可扩展性,可根据实际硬件条件调整以达到最佳性能。
因此,蚂蚁集团与DeepSeek等AI大模型新生势力通过软件工程层面的极致优化实现的高性能AI大模型成功案例都表明,英伟达高端GPU产线——即H100/H200,乃至新推出的Blackwell AI GPU至少不是“AI训练进程”所必需大批购置的AI算力基础设施。
此外,对于AI推理体系而言,DeepSeek则通过NSA机制在Transformer底层实现AI大模型革命性训练与推理效率提升,以及前不久“开源周”重磅发布的众多对于AI训练/推理影响深远的底层代码,可谓全面掀起AI训练与推理层面的“效率革命”。由于MoE架构使得每次推理只需激活一部分专家参数(蚂蚁Ling-Plus每次仅调用约1/10的参数),理论上单次推理的计算开销比同等参数量的稠密模型要少得多,这些因素一定程度上能够解释为何高盛下调AI服务器出货预期以及TD Cowen洞察到微软削减数据中心项目。
随着DeepSeek横空出世所主导的AI训练成本大幅下降,以及AI推理架构优化所引领的理端Token成本骤减大趋势,AI代理以及生成式AI软件有望向各行各业加速渗透,这也是为何华尔街在纳斯达克100指数暴跌之际仍然无比看涨软件股,但是对于AI最核心基础设施——AI GPU算力产业链的预期却在不断削减。
DeepSeek-R1推理型大模型的问世,可谓向全球开源大模型领域重磅宣告随着AI训练/推理步入“极致压缩+高效强化训练+AI推理算力架构大幅简化”的极低成本范式。
DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,同时引入纯强化学习,而非传统的基于大量示例的监督学习(SFT),大幅降低大模型训练/推理成本。以极致工程为导向的高效训练与数据压缩策略,通过多层注意力(MLA)——尤其对Query端进行低秩化,从而在训练时减少激活内存负担;还包括FP8混合精度训练、DualPipe 并行通信、MoE负载均衡等手段,让DeepSeek在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”等创新型AI训练举措,打造出“极致压缩+高效强化训练+AI推理算力架构大幅简化”的低成本AI算力新范式。
在不到600万美元的极低投入成本和2048块性能远低于H100与Blackwell的H800芯片条件下,DeepSeek团队打造出性能堪比OpenAI o1的开源AI模型,相比之下Anthropic与OpenAI训练成本高达10亿美元,DeepSeek的推理输入与输出token定价相比于OpenAI定价则可谓“骨折级”促销。DeepSeek每百万输出token仅需2.19美元,而OpenAI的GPT-4高达60美元。
“未来还会有更多类似DeepSeek的AI大模型变革力量出现。”Mirae Asset Financial Group旗下ETF部门Global X的研究分析师Brooke Thackray在最新采访中表示。“AI大模型技术层面的进展甚至改变了预期电力需求的背景。”Thackray说道。
AI GPU屡遭利空+ASIC后发制人,英伟达股价跌势难止
高盛分析师团队在本周的一份研报中,下调了机架级AI服务器(Rack-level AI Server)出货量预期,2025年及2026年预计出货量分别从3.1万台和6.6万台下调至1.9万台和5.7万台(以144-GPU等效进行测算)。高盛表示,这一调整主要基于A英伟达AI服务器机架产品从Blackwell到Blackwell Ultra的过渡期影响以及供需不确定性,尤其强调随着更高效AI模型(比如DeepSeek)的接连发布,投资者们对密集计算能力的需求争议愈发升温。
高盛同样调整了AI训练服务器的销售额预期,预计相关销售额将在2025年同比增长30%,达到1600亿美元,此前的预测则约为1790亿美元。
在当地时间周三,来自TD Cowen的分析师Michael Elias、Cooper Belanger和Gregory Williams在周三发布的最新研究报告中指出:“过去六个月,微软的收缩策略包括数据中心租约取消和延后。与此同时,谷歌已介入,接手了微软在欧洲放弃的一些租约,而Meta则在欧洲拿下部分释放出的产能。我们仍然认为,数据中心租约取消和产能延后表明数据中心整体供过于求,与当前需求预测相比存在明显过剩。”
2月24日,TD Cowen的相关报告就引发全球金融市场高度关注,令投资者们感到不安。当时该机构发布的报告称,微软已经取消或延迟与多个私营数据中心运营商的数项租赁协议,涉及功率总计数百兆瓦。该机构的分析师们当时强调,微软的这些举动表明,微软可能处于数据中心“AI算力供应过剩”的不利局面。
此外,高盛相应下调了中国台湾AI服务器ODM和散热供应链相关公司(广达、鸿海、FII、纬创、艾维克以及双鸿)目标价,降幅在7%-21%之间,并将广达电脑评级从“买入”下调至“中性”。此外,高盛认为对于投资者而言,ASIC AI服务器相关企业表现普遍优于GPU AI服务器供应商,这一趋势可能将在一段时间内持续下去。
不仅高盛,来自摩根大通的分析师团队也认为A ASIC需求前景将强于英伟达领衔的AI GPU需求前景,这也是为何摩根大通予以AI ASIC领军者博通高达250美元目标价,意味着未来12个月博通股价潜在上行空间高达70%。
AI ASIC在云端AI推理算力需求持续升温的背景之下,可能将迈入比2023-2024 AI热潮时期更加强劲的需求扩张轨迹,未来需求前景可能远强于AI GPU,尤其是谷歌、OpenAI以及Meta等大客户有望长期斥巨资携手博通开发AI ASIC芯片。
在与分析师们的电话会议上,博通CEO陈福阳表示博通正加速为“超大规模客户”——即Meta、谷歌以及OpenAI等拥有超大规模数据中心的运营商们以及苹果公司等科技巨头们提供AI ASIC芯片。他在业绩会议中指出,在某些AI应用场景中,博通的定制化半导体比英伟达所销售的通用AI加速芯片Blackwell或者Hopper架构 AI GPU更具效能优势。
陈福阳在业绩会议上重磅透露,该公司正在积极拓展新的“超大规模客户”群体。现有此类客户三家,另有四家处于合作进程中,其中两家即将成为超级创收客户。“我们的超大规模合作伙伴仍在积极投资,”他强调。陈福阳还预计今年将为两家超大规模的客户完成定制处理器(XPU)的流片工作。
随着美国科技巨头们坚定向人工智能领域砸巨资,受益最大的赢家势力可能是AI ASIC巨头们,比如博通、迈威尔科技以及来自中国台湾的世芯。微软、亚马逊、谷歌以及Meta,乃至生成式AI领军者OpenAI,无一例外都在联手博通或其他ASCI巨头更新迭代更具能效与成本优势的AI ASIC芯片,用于海量推理端AI算力部署,包括蚂蚁集团采用的国产AI芯片,可能也基于ASIC解决方案。因此AI ASIC未来市场份额扩张之势有望大幅强于AI GPU,进而趋于份额对等,而不是当前AI GPU一家独大局面——占据AI芯片领域高达90%份额。
但是,这种转变不是一蹴而就,在当前AGI仍处于研发进程,AI GPU的灵活性与通用性仍然是AI训练最倚重的专属能力。超大规模的AI模型,比如GPT家族与LIama开源家族,在“研究探索”或“快速迭代”阶段对算子灵活性、网络结构可变性的需求依旧很高——这是通用 GPU 仍占据优势的主要原因。
随着大模型架构逐渐向几种成熟范式收敛(例如标准化的Transformer解码器与MoE架构),ASIC可以更容易地吃下主流AI推理端的高强度算力负载。并且某些云服务商或行业巨头会深度耦合软件栈,让 ASIC兼容常见的网络算子,并提供优秀的开发者工具,这将加速 ASIC 推理在常态化/海量化场景中的普及。