(原标题:AI市场明争暗斗:微软“背刺”英伟达,低调研发新网卡)
21世纪经济报道记者杨清清 北京报道 微软再传新动向。
北京时间2月21日,有媒体报道称,微软(MSFT.O)正在研发一款全新网卡,以提升其Maia AI服务器芯片的性能。微软该项目负责人被曝为普拉迪普·辛杜(Pradeep Sindhu),后者曾任网络设备开发商瞻博网络(Juniper Networks,JNPR.N)的联合创始人,并成立初创公司Fungible。
据报道,微软研发的全新网卡类似于英伟达的ConnectX-7,项目研发或将需要超过一年的时间。不过一旦研发成功,该项目将减少OpenAI在微软服务器上训练模型所需时间,同时降低成本。
“作为微软Azure 云基础设施系统方法的一部分,微软专注于优化堆栈的每一层。”微软的发言人在一份声明中表示,“公司经常开发新技术满足客户的需求,包括网络芯片。”
事实上,微软在自研AI硬件的道路上越走越远,而这也被外界视为微软试图减少对英伟达(NVDA.O)的依赖。2023年11月,微软推出云端AI芯片微软Azure Maia 100及服务器CPU微软Azure Cobalt 100。
如今,微软悄然进行网卡项目研发,背后酝酿着怎样的心思?
微软研发全新网卡的传闻,引发业界广泛关注。
所谓网卡,是数据中心的一项重要技术,主要用于提升服务器的流量速度。一位行业人士向21世纪经济报道记者指出,数据中心服务器集群需要通过网络连接并彼此共享信息,从而实现高效协作,而流量从服务器传输至数据中心网络正是需要通过网卡。作为数据中心的专业构成,网卡能够传输数据并优化传输速度。
聚焦到微软方面,在其数据中心使用英伟达的AI芯片时,由于需要传输OpenAI等AI公司所需的大量数据,可能将出现过载现象。因此,对于微软来说,开发网卡新品有望提升其数据中心服务能力。
据报道,微软此次研发的全新网卡将对标英伟达的ConnectX-7。英伟达官网介绍称,ConnectX-7可支持超低时延、400Gb/s 吞吐量和创新的 NVIDIA 网络计算加速引擎,实现额外加速,为超级计算机、人工智能和超大规模云数据中心提供所需的高可扩展性和功能丰富的技术。
其中,有别于传统的数据共享方式,ConnectX-7通过运用RDMA技术,可绕过CPU从而让数据检索速度快速提升。有消息称,微软的新网卡不仅将借鉴这一全新技术,还将从性能上进行全面优化。
需要注意的是,微软在网卡技术上的布局并非空穴来风。早在2019年,微软就曾提及DPU(数据处理单元)的重要性,并于2023年收购服务器芯片初创企业Fungible,后者为专门生产数据处理单元(DPU)的企业。
在收购Fungible的公告中,微软指出,Fungible是一家可组合基础设施提供商,旨在通过高效、低功耗的数据处理单元(DPU)加速数据中心的网络和存储性能。Fungible的技术有助于实现高性能、可扩展、分解、横向扩展的数据中心基础设施,并具有可靠性和安全性。
“微软的收购举措有望进一步加强其在数据中心基础设施方面的能力。通过收购Fungible获得的专业技术积累,也有望在全新网卡项目研发中发挥作用。”前述行业人士向21世纪经济报道记者指出。
值得一提的是,Fungible的创始人正是如今微软网卡业务传闻中的负责人普拉迪普·辛杜。因此,微软的网卡研发项目很可能指向DPU,后者被视为继CPU和GPU之后的“第三颗主力芯片”。
事实上,在当前数据增幅大量提升的背景下,以DPU为代表的异构计算市场正在受到更多的关注。根据赛迪顾问数据,2020年全球DPU产业市场规模达30.5亿美元,预计到2025年全球DPU产业市场规模将超过245.3亿美元,期间CAGR高达51.73%。
“伴随着5G、云网融合时代的到来,以及虚拟交换等技术的引入,基于服务器的网络数据平面复杂性急剧增加。海量的数据搬运工作被CPU承担,导致网络接口带宽急剧增加,CPU资源负载过大,大大影响了CPU将计算能力释放到应用程序中,”民生证券研究团队指出,“为了提高主机CPU的处理性能,Smart NIC(智能网卡)将部分CPU的网络功能(如IP 分片、TCP 分段等)转移到网卡硬件中,起到了加速运算的目的,其可视为DPU的前身。”
目前,AI芯片市场的“霸主”无疑是英伟达。在生成式AI大火的背景下,主导AI芯片的英伟达也赚得盆满钵满。
英伟达所推出H100,被公认为是训练大语言模型最需要的GPU。与此同时,英伟达通常将ConnectX-7网卡与其GPU捆绑销售。其中的一个例子,便是将H100与ConnectX-7相结合推出的融合加速器“H100 CNX”,该款产品可为I/O密集型应用提供强劲性能。
作为生成式AI的重要角力者,微软通过向OpenAI注入数十亿美元的巨资,将后者的技术融入到自身的各类产品中。甚至,将OpenAI技术加以进行内部产品整合,已经成为微软发力AI的一大战略。例如,OpenAI新近发布Sora模型后,微软方面亦透露,会将该模型融入Copilot产品中。
不过,大模型的训练瓶颈终归落在算力上,不愿被英伟达“掣肘”的微软,也开始动作不断。2023年11月,微软推出云端AI芯片微软Azure Maia 100及服务器CPU微软Azure Cobalt 100,前者能够运行大语言模型并支持AI计算,亦被业界视为微软打响抛弃英伟达芯片依赖的“首枪”。
如今,微软的网卡项目,则再度显现了这个巨头在AI基础设施领域自给自足的决心。“该项目有望重塑微软与英伟达之间的竞争格局,从而对整个AI行业产生影响。一旦项目研发成功,微软也将构建一个更强大并更具竞争力的Azure平台。”有行业分析人士向21世纪经济报道记者指出。
不过,也有芯片行业从业人士向21世纪经济报道记者直言称,DPU开发难度很高,结构复杂,而且不太好落地,有的大芯片DPU单价可能达到十几万。
“AI巨头布局DPU的原因是他们有规模庞大的服务器集群,定制DPU可以有效地降本增效,覆盖芯片开发成本。”该人士表示。同时他判断,微软该项目大概率为专用产品,未必会对芯片市场整体有大幅影响。