首页 - 财经 - 产业观察 - 正文

DeepSeek引发AI革命,英伟达市值暴跌

关注证券之星官方微博:

(原标题:DeepSeek引发AI革命,英伟达市值暴跌)

如果您希望可以时常见面,欢迎标星收藏哦~

英伟达股价下跌近 17%,DeepSeek引发全球科技股抛售。

  • 中国初创公司 DeepSeek 引发人们对人工智能竞争力和美国在该领域领先地位的担忧,导致英伟达等美国科技公司股价暴跌。

  • DeepSeek 于 12 月下旬推出了一个免费的开源大型语言模型,声称该模型仅用两个月的时间就开发完成,成本不到 600 万美元。

  • 这些发展加剧了人们对大型科技公司在人工智能模型和数据中心上投入巨额资金的质疑。

近日,英伟达和其他美国科技公司暴跌,这是全球抛售潮的一部分,因为中国初创公司 DeepSeek 引发了人们对人工智能竞争力和美国在该领域领导地位的担忧。

芯片设计公司英伟达是人工智能热潮的主要受益者,但该公司股价下跌 16.9%。受此影响,这家大型科技股有望创下 2020 年 3 月以来最糟糕的一天。

股价跌至去年十月以来的最低点。

Nvidia 的亏损导致其他 AI 交易和美国整体市场下跌。美光科技和Arm Holdings分别下跌超过 11% 和 10%。芯片制造商博通和AMD分别下跌超过17%和6%。

Constellation Energy 和Vistra是两种与人工智能实力建设相关的最知名衍生品,分别暴跌超过 20% 和 28%。

国际市场也受到了影响。荷兰芯片公司ASML和ASM International在欧洲交易中,这两家公司都大幅回落。在亚洲,包括Advantest在内的日本芯片相关股票和东京电子普遍下跌。

DeepSeek 于 12 月底推出了一款免费的开源大型语言模型,声称该模型 仅用两个月时间就开发完成 ,成本不到 600 万美元——比西方同行要求的花费要少得多。上周,该公司发布了一款推理模型,据报道,该模型 在许多第三方测试中的表现都优于OpenAI 的最新模型。

Nvidia 发言人表示:“DeepSeek 是一项出色的 AI 进步,也是测试时间扩展的完美范例。DeepSeek 的工作说明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口管制的计算。推理需要大量 NVIDIA GPU 和高性能网络。我们现在有三个扩展法则:预训练和后训练,它们将继续,以及新的测试时间扩展。”

在一篇社交媒体帖子中,马克·安德森 (Marc Andreesen) 称 DeepSeek 的产品是“我见过的最令人惊叹、最令人印象深刻的突破之一”,也是“给世界的一份深刻礼物”。安德森·霍洛维茨 (Andreessen Horowitz) 联合创始人最近因支持唐纳德·特朗普 (Donald Trump) 总统而声名狼藉。

这些发展引发了人们对大型科技公司在人工智能模型和数据中心上投资金额的担忧,并让人担心美国在该领域的领先地位并不像之前认为的那样强大。

Raymond James 半导体分析师 Srini Pajjuri 在周一的一份报告中表示:“DeepSeek 显然无法像美国超大规模企业那样获得那么多的计算能力,但却设法开发出一种看似极具竞争力的模型。”

Pajjuri 表示,DeepSeek 可能会“在美国超大规模企业中推动更大的紧迫性”,这些企业包括亚马逊等大型计算基础设施公司和微软具体来说,该分析师表示,这些公司可以利用其在图形处理单元方面的优势,使自己与更便宜的选择区分开来。

GPU 是训练大型 AI 模型所需基础设施的关键部分。Nvidia 是 GPU 市场的领导者。

花旗分析师表示,计算成本已成为 DeepSeek 新闻发布后人们讨论的一个关键话题。

他们表示,尽管美国公司在最先进 AI 模型上的主导地位可能受到威胁,但竞争对手面临的一个关键障碍是获得最好的芯片。分析师表示,正因为如此,领先的 AI 公司可能不会放弃更先进的 GPU。

他们补充说,上周宣布的5000 亿美元星际之门人工智能项目是“对先进芯片需求的认可”。

可以肯定的是,伯恩斯坦分析师对 DeepSeek 工具的开发成本是否低于 600 万美元表示怀疑。他们质疑这个数字是否不包括之前研究和实验的其他成本,这些成本是为了让这项技术达到今天的水平。

尽管强调 DeepSeek 的模型“看起来很棒”,但该团队表示,它们不应该被视为“奇迹”。伯恩斯坦分析师表示,对“我们所熟知的人工智能基础设施综合体的丧钟”的恐慌“被夸大了”。

英伟达:中国的 DeepSeek R1 模型是“一项出色的 AI 进步”

英伟达称 DeepSeek 的 R1 模型是“一项出色的人工智能进步”,尽管这家中国初创公司的崛起导致这家芯片制造商的股价在周一暴跌 17%。

Nvidia 发言人周一向 CNBC 表示:“DeepSeek 是一项出色的 AI 进步,也是测试时间扩展的完美范例。DeepSeek 的工作展示了如何使用该技术创建新模型,利用广泛使用的模型和完全符合出口管制的计算。”

上周,DeepSeek 发布了开源推理模型 R1,据报道,该模型的表现优于 OpenAI 等美国公司的最佳模型。R1 自报的培训成本不到 600 万美元,这只是硅谷公司为构建人工智能模型所花费的数十亿美元的一小部分。

Nvidia 的声明表明,它认为 DeepSeek 的突破将为这家美国芯片制造商的图形处理单元 (GPU) 创造更多的工作。

“推理需要大量 NVIDIA GPU 和高性能网络,”发言人补充道。“我们现在有三种扩展法则:继续进行预训练和后训练,以及新的测试时间扩展。”

Nvidia 还表示,DeepSeek 使用的 GPU 完全符合出口要求。这与 Scale AI 首席执行官 Alexandr Wang上周在 CNBC 上发表的评论相矛盾,后者认为 DeepSeek 使用的是中国大陆禁止使用的 Nvidia GPU 型号。DeepSeek 表示,它使用的是专为中国市场设计的 Nvidia GPU 的特殊版本。

分析师们现在正在问,微软等公司数十亿美元的资本投资是否,谷歌和Meta基于 Nvidia 的 AI 基础设施被浪费了,因为相同的结果可以更便宜地实现。

本月早些时候,微软表示,仅在 2025 年,它就会在人工智能基础设施上投入 800 亿美元,而 Meta 首席执行官马克·扎克伯格上周表示,作为其人工智能战略的一部分,这家社交媒体公司计划在 2025 年投资 600 亿至 650 亿美元资本支出。

美国银行证券分析师贾斯汀·波斯特 (Justin Post) 在周一的一份报告中写道:“如果模型训练成本被证明可以大幅降低,我们预计,使用云 AI 服务的广告、旅游和其他消费应用公司将在短期内获得成本效益,而长期来看,超大规模 AI 相关的收入和成本可能会更低。”

Nvidia 的评论也反映了 Nvidia 首席执行官黄仁勋 (Jensen Huang)、OpenAI 首席执行官 Sam Altman 和微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 近几个月来讨论的一个新主题。

人工智能的热潮和对 Nvidia GPU 的需求很大程度上是由“缩放定律”推动的,这是 OpenAI 研究人员在 2020 年提出的人工智能开发概念。该概念表明,可以通过大大扩展构建新模型所需的计算量和数据量来开发更好的人工智能系统,从而需要越来越多的芯片。

自 11 月以来,黄和奥特曼一直在关注缩放定律的一个新问题,黄称之为“测试时间缩放”。

这个概念是说,如果一个经过充分训练的人工智能模型在进行预测或生成文本或图像时花费更多时间使用额外的计算机能力来“推理”,它将提供比运行时间更短时更好的答案。

测试时间缩放定律的形式被用在 OpenAI 的某些模型中,例如 o1以及 DeepSeek 的突破性 R1 模型。

DeepSeek 如何在性能较差且缺陷较多的硬件上训练其 AI 模型?

也许他们应该称之为 DeepFake、DeepState,或者更好的是 Deep Selloff。或者也许是美国本土 AI 供应商目前正在努力应对的另一个明显的深层次问题。

不管你怎么称呼它,DeepSeek 基础模型在短短一周内就颠覆了人工智能世界,再次证明中国研究人员可以在劣质硬件上运行优越的算法,并获得与美国研究人员(无论是在运行百亿亿次 HPC 模拟的国家实验室还是在运行人工智能训练和推理工作负载的超大规模计算中心)所能提供的最佳结果相当的结果。

如果 DeepSeek 模型背后的数字不是夸张,甚至不是夸大其词,那么成本会低很多。不幸的是,可能存在一些这样的情况,这对 Nvidia 和其他目前涉足 AI 领域的上市公司的投资者来说,将是一种安慰。在我们撰写本文时,这些公司的市值已经缩水了数千亿美元。

几天前,我们看到了有关 DeepSeek-V3 训练模型的论文,我们本来打算在本周初的今天早上对它进行观察,但华尔街的恐慌抢先了一步。以下是我们所知道的情况。

DeepSeek-AI 由梁文峰于 2023 年 5 月创立,实际上是 High-Flyer AI 的衍生公司,High-Flyer AI 是一家对冲基金,据报道,该基金管理着 80 亿美元的资产,其创建目的明确是使用人工智能算法交易各种金融工具。它一直没有引起人们的关注,直到 2024 年 8 月,DeepSeek发表了一篇论文,描述了它创建的一种新型负载均衡器,用于将其混合专家 (MoE) 基础模型的元素相互链接。假期期间,该公司发布了其 DeepSeek-V3 基础模型的架构细节,该模型涵盖 6710 亿个参数(对于生成的任何给定代币,仅激活 370 亿个参数),并在 14.8 万亿个代币上进行了训练。

最后,也许是最重要的一点,1 月 20 日,DeepSeek 推出了 DeepSeek-R1 模型,该模型增加了两个强化学习阶段和两个监督微调阶段,以增强模型的推理能力。正如您在此处所见,DeepSeek AI 对 R1 模型的收费比基础 V3 模型高出 6.5 倍。

在 Intertubes 上有很多关于为什么会出现这种情况的讨论。我们稍后会谈到这个。

有趣的是,V3 和 R1 模型以及它们的前身 V2 的源代码都可以在 GitHub 上找到,这比 OpenAI、Google、Anthropic、xAI 和其他公司的专有模型还要多。

但我们想知道的是——也是今天让科技巨头们感到不安的——DeepSeek 究竟是如何利用 Nvidia 的几千台性能受限的“Hopper”H800 GPU 加速器,创建一个 MoE 基础模型,该模型可以与 OpenAI、Google 和 Anthropic 在其最大模型上的最佳表现相媲美,这些模型是在数万台未受限制的 GPU 加速器上进行训练的。如果训练一个模型所需的硬件资源只有十分之一到二十分之一,那么这似乎意味着人工智能市场的价值在理论上可以缩减 10 倍到 20 倍。在我们写这句话的时候,Nvidia 的股价下跌了 17.2%,这并非巧合。

在 DeepSeek-V3 论文中,DeepSeek 表示,它在 H800 加速器上花费了 266 万个 GPU 小时进行预训练,在上下文扩展上花费了 11.9 万个 GPU 小时,在基础 V3 模型上仅花费了 5000 个 GPU 小时进行监督微调和强化学习,总共花费了 279 万个 GPU 小时。以每 GPU 小时 2 美元的价格计算——我们不知道这是否是中国的现行价格——那么它仅花费了 558 万美元。

DeepSeek 表示,用于训练 V3 模型的集群只有 256 个服务器节点,每个节点有 8 个 H800 GPU 加速器,总共有 2,048 个 GPU。我们推测它们是 H800 卡的 H800 SXM5 版本,其 FP64 浮点性能上限为 1 万亿次浮点运算,其他方面与世界上大多数公司可以购买的 80 GB 版本的 H100 卡相同。(H800 卡的 PCI-Express 版本已停用部分 CUDA 核心,其内存带宽从 2022 年宣布的基础 H100 卡上的 3.35 TB/秒减少了 39% 至 2 TB/秒。)节点内的八个 GPU 与 NVSwitch 互连,以在这些 GPU 内存之间创建共享内存域,并且节点具有多个 InfiniBand 卡(可能每个 GPU 一个)以创建到集群中其他节点的高带宽链接。我们强烈怀疑 DeepSeek 只能访问 100 Gb/秒的 InfiniBand 适配器和交换机,但它可能以 200 Gb/秒的速度运行;该公司没有透露。

我们认为,按照任何现代人工智能标准,这都是一个相当适中的集群,尤其是考虑到 OpenAI/Microsoft、Anthropic 和 Google 为训练其等效的 GPT-4 和 o1、Claude 3.5 和 Gemini 1.5 模型而构建的集群的规模。我们非常怀疑 V3 模型是在如此小的集群上从头开始训练的。除非有人重复这项任务,否则很难接受。幸运的是,科学是可重复的:有些公司拥有数万亿精选代币和数万个 GPU,可以看看 DeepSeek 的说法是否属实。如果这家中国人工智能新贵所说的是真的,那么在 2,048 个 H100 GPU 上,训练 DeepSeek-V3 只需不到两个月的时间。对于超大规模企业和云构建者来说,这只是一笔小钱。

尽管存在这种怀疑,但如果你仔细阅读这篇 53 页的论文,就会发现 DeepSeek 已经采取了各种巧妙的优化和方法来制作 V3 模型,我们确实相信,它们确实减少了效率低下的问题,并提高了 DeepSeek 在硬件上的训练和推理性能。

我们认为,训练 V3 基础模型所采用方法的关键创新是使用 Hopper GPU 上的 132 个流式多处理器 (SM) 中的 32 个,作为数据的通信加速器和调度器,因为训练运行会仔细检查令牌并从参数深度集生成模型的权重,因此数据会在集群中传递。据我们推测,正如 V3 论文所述,这种“计算和通信之间的重叠可以隐藏计算过程中的通信延迟”,使用 SM 在不在同一节点的 GPU 之间创建实际上是 L3 缓存控制器和数据聚合器的东西。

论文中提到,这个被称为 DualPipe 的通信加速器主要完成以下任务:

  • 在 InfiniBand 和 NVLink 域之间转发数据,同时从单个 GPU 聚合发往同一节点内的多个 GPU 的 InfiniBand 流量。

  • 在 RDMA 缓冲区(已注册的 GPU 内存区域)和输入/输出缓冲区之间传输数据。

  • 执行全部到全部合并的减少操作。

  • 在将分块数据传输到 InfiniBand 和 NVLink 域中的多个专家期间管理细粒度内存布局。

从另一个意义上讲,DeepSeek 创建了自己的 GPU 虚拟 DPU,用于执行与 GPU 集群中的全对全通信相关的各种类似 SHARP 的处理。

以下是关于 DualPipe 的重要段落:“至于训练框架,我们设计了 DualPipe 算法以实现高效的流水线并行,该算法具有更少的流水线气泡,并通过计算通信重叠隐藏了训练期间的大部分通信。这种重叠确保,随着模型进一步扩大,只要我们保持恒定的计算与通信比率,我们仍然可以在节点之间使用细粒度专家,同时实现接近零的全对全通信开销。此外,我们还开发了高效的跨节点全对全通信内核,以充分利用 InfiniBand 和 NVLink 带宽。此外,我们精心优化了内存占用,使得无需使用昂贵的张量并行即可训练 DeepSeek-V3。结合这些努力,我们实现了高训练效率。”

论文并未说明 DualPipe 功能能带来多大的提升,但如果 GPU 由于通信效率低下而有 25% 的时间在等待数据,那么可以通过隐藏延迟和调度技巧(如 L3 缓存对 CPU 和 GPU 核心的作用)来减少计算延迟,并且可以将计算效率提高到接近 100%,那么这 2,048 个 GPU 就会开始像 8,192 个一样运行。OpenAI 的 GPT-4 基础模型是在 8,000 个 Nvidia 的“Ampere”A100 GPU 上进行训练的,这相当于 4,000 个 H100(差不多)。

还有一个副作用:V3 模型使用管道并行和数据并行,但由于内存管理非常严格,并且在模型构建时重叠前向和后向传播,V3 根本不必使用张量并行。很奇怪,对吧?

V3 的另一个关键创新是上面提到的辅助无损负载平衡。当你训练 MoE 模型时,必须有某种路由器来知道要向哪个模型发送哪些令牌,就像当你查询 MoE 中固有的一堆模型时,你必须知道要监听哪个模型一样。

另一个性能提升是 FP8 低精度处理,它通过 GPU 提升带宽,同时充分利用 H800 GPU 加速器上有限的 80 GB 内存。大多数 V3 模型内核都以 FP8 格式实现。但某些操作仍然需要 16 位或 32 位精度,主权重、权重梯度和优化器状态的存储精度高于 FP8。DeepSeek 提出了自己的方法来微调正在处理的数据的尾数和指数,这样就可以保持任何给定计算所需的级别或精度和数值范围,而不会牺牲数据的保真度,从而损害模型得出的答案的可靠性。

DeepSeek 想出了一个巧妙的技术,即把张量核心中中间结果的高精度矩阵数学运算提升到 CUDA 核心上的矢量单元,以保持更高精度的表象。(这种表象足以获得看起来像对整个数据集使用了 32 位数学运算的输出。)顺便说一句,DeepSeek 在张量核心内的所有张量计算中使用 4 位指数和 3 位尾数 - 称为 E4M3。这些有趣的位数并没有在那里发生。它只是发生在 CUDA 核心中。优化器内部使用 FP16 格式,主权重采用 FP32 格式。

还有许多其他巧妙的技巧,例如在反向传播期间重新计算所有 RMSNorm 操作和重新计算所有 MLA 向上投影,这意味着它们不会占用 H800 卡上 HBM 内存中的宝贵空间。用于估计模型性能及其学习率衰减的指数移动平均 (EMA) 参数存储在 CPU 主机内存中。通过以较低精度格式缓存激活模型激活和优化器状态,可以进一步减少内存消耗和通信开销。

仔细阅读论文后,您可以自行判断所有这些巧妙的调整是否能使硬件成本减少 10 倍。在看到证据之前,我们持怀疑态度。

有趣的是,在 V3 模型论文中,DeepSeek 研究人员向 Nvidia 或其他 AI 加速器提供商提供了一份所需功能列表。

“我们的实验表明,它仅使用符号填充右移后每个尾数乘积的最高 14 位,并截断超出此范围的位。但是,例如,要从 32 个 FP8×FP8 乘法的累积中获得精确的 FP32 结果,至少需要 34 位精度。因此,我们建议未来的芯片设计增加 Tensor Cores 中的累积精度以支持全精度累积,或根据训练和推理算法的精度要求选择合适的累积位宽。这种方法可确保误差保持在可接受的范围内,同时保持计算效率。”

DeepSeek 开发了一种逐块和全块量化的方法,这种方法可以在数据集内以一定的位数移动数字范围。Nvidia 仅支持张量量化,DeepSeek 希望 Nvidia 架构师阅读其论文并了解其方法的优势。(即使 Nvidia 确实添加了这样的功能,也可能会被美国政府关闭。)

DeepSeek 还希望支持在线量化,这也是 V3 模型的一部分。为了进行在线量化,DeepSeek 表示必须从 HBM 内存读取 128 个 BF16 激活值(这是先前计算的输出)以对其进行量化,将其作为 FP8 值写回到 HBM 内存,然后再次读取它们以在张量核心中执行 MMA 操作。DeepSeek 表示,未来的芯片应该在单个融合操作中实现 FP8 转换和张量内存加速,这样量化就可以在激活从全局内存传输到共享内存期间进行,从而减少读写操作。DeepSeek 还希望 GPU 制造商将矩阵转置与 GEMM 操作融合在一起,这也将减少内存操作并使量化工作流程更加精简。

现在,关键点来了,我们上面提到过。DeepSeek 训练这个 V3 模型。为了创建 R1 模型,它获取其他 AI 模型的输出(据传言),并将它们输入强化学习和监督精细训练操作,以改进 V3 的“推理模式”。然后,关键点来了,正如论文中概述的那样:

“我们在 DeepSeek-V3 的基础模型上进行后期训练,包括监督微调 (SFT) 和强化学习 (RL),以使其与人类偏好保持一致并进一步释放其潜力。在后期训练阶段,我们从 DeepSeek-R1 系列模型中提取推理能力,同时小心地保持模型准确率和生成长度之间的平衡。”

在论文的后面,DeepSeek 说道:“我们引入了一种创新方法,将长链思维 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程将 R1 的验证和反射模式巧妙地融入到 DeepSeek-V3 中,并显著提高了其推理性能。同时,我们还控制着 DeepSeek-V3 的输出样式和长度。”

上面描述的这个蛇形尾巴到底能提升 V3 模型的有效性和减轻训练负担多少呢?我们希望看到它被量化和定性。

DeepSeek称其Janus Pro AI模型在图像生成方面击败了竞争对手

DeepSeek 的新开源 AI 模型超越了 Stability AI 和微软支持的这家中国初创公司在周一的一份技术报告中表示,OpenAI 的模型在图像生成基准测试中表现出色。

该公司表示,其 Janus-Pro-7B AI 模型在使用文本提示的图像生成排行榜上优于 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。

新模型是对去年年底推出的 Janus 的升级,紧随其后的是 DeepSeek 推出了基于 DeepSeek-V3 模型的新助手,该模型已成为美国苹果应用商店中评分最高的免费应用程序。

英伟达等科技股和甲骨文在该中国公司宣布其 DeepSeek-V3 模型荣登开源模型排行榜榜首后,其股价周一暴跌。

DeepSeek 的技术报告称,新模型通过升级训练流程、数据质量和模型大小对 Janus 进行了改进,从而提高了图像稳定性和细节丰富性。

报告补充说,Janus-Pro通过添加7200万张高质量合成图像并将其与真实世界数据进行平衡,实现了更具视觉吸引力和更稳定的图像输出。

该初创公司补充说,其更大的模型版本拥有多达 70 亿个参数,提高了文本到图像生成和任务理解的训练速度和准确性。

OpenAI 和 Stability AI 没有立即回应置评请求。

https://www.cnbc.com/2025/01/27/nvidia-falls-10percent-in-premarket-trading-as-chinas-deepseek-triggers-global-tech-sell-off.html

https://www.cnbc.com/2025/01/27/nvidia-calls-chinas-deepseek-r1-model-an-excellent-ai-advancement.html

https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/

https://www.reuters.com/technology/deepseeks-janus-pro-ai-model-beats-rivals-image-generation-2025-01-27/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4020期内容,欢迎关注。


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示新开源盈利能力一般,未来营收成长性一般。综合基本面各维度看,股价合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-