AI“盗火者”DeepSeek，正立于风雪_财经频道

（原标题：AI“盗火者”DeepSeek，正立于风雪）

“希腊神话中，普罗米修斯为了造福人类，冒着危险从太阳神处盗取火种，并带到了人间。从此，人类结束了漫长艰难的黑暗时代。”

正值中国传统春节之际，全国人民沉浸在祥和喜庆的氛围当中。但在科技领域里，一场从春节前夕便开始掀起的技术革命正席卷着整个行业，并大有愈演愈烈之势。

1月20日，中国AI创新企业深度求索（DeepSeek）正式发布了推理模型DeepSeek-R1，以及同步开源模型权重。一经发布，便以其惊人的性能和成本引爆了全球AI科技圈，甚至造成了美股的大幅震荡。而DeepSeek应用也登顶苹果中美两地应用商店免费APP下载排行榜。

一时间，世界各地都在热议DeepSeek。然而，美国当地时间1月28日，多名美国官员回应DeepSeek对美国的影响，表示DeepSeek是“偷窃”，正对其影响开展国家安全调查。新任白宫人工智能和加密货币负责人David Sacks在接受福布斯的采访时认为：“DeepSeek“可能”窃取了美国的知识产权才得以崛起。”

由此，DeepSeek也被顶上了全球舆论的风口浪尖。

“蒸馏”技术再引争议

此次美国政府对DeepSeek进行指控的主要焦点，在于DeepSeek训练模型时采用的“模型蒸馏(Model Distillation)”技术。

据了解，模型蒸馏是AI大模型主流压缩技术中的一种。其目的是在保留模型性能的前提下，将复杂的、大体量的AI大模型，压缩成为体量相对较小的AI模型。从而减少企业部署AI模型的成本，提高模型的推理效率。

这个过程中，将分别涉及一个被称为“教师模型（Teacher Model）”和一个“学生模型（Student Model）”两个角色。其中，教师模型就是压缩前的AI大模型，学生模型即压缩之后的模型，并往往是一个新建的模型。蒸馏过程中，将对教师模型和学生模型输入相同的token，并引导学生模型的最终输出内容趋同于教师模型的最终输出内容。

通常情况下，教师模型会使用已经被训练好的成熟的AI大模型。此次，David Sackss对福克斯新闻说，有“重大证据”表明DeepSeek从美国公司OpenAi的大模型中蒸馏知识。

OpenAI亦表示已经发现证据，证明了DeepSeek利用他们的模型进行训练，涉嫌侵犯知识产权。在OpenAI的使用协议中，用户被禁止使用输出开发竞争模型。不过，OpenAI公司并未提供证据的细节。

在AI领域中，模型蒸馏是一种业内常用的提高大模型训练速度的技术手段。例如Claude、豆包、Gemini、Llama3.1等多个模型均经过知识蒸馏。

对于模型蒸馏是否合法，业内有较大的分歧。在传统的软件行业中，代码的直接复制抄袭是侵犯了知识产权。但AI领域中，模型蒸馏的本质上是“学习”而非“复制”，所以AI 训练数据本身的版权问题仍然存在争议。

有些公司会通过附加使用条款，来限制未经授权的 API 访问和商业模型数据的滥用。例如2023年12月份，字节跳动被曝光出正在研发一个名为“种子计划”（Project Seed）的AI大模型项目中，在训练和评估模型等多个研发阶段调用了OpenAI的API，并使用ChatGPT输出的数据进行模型训练，因此被OpenAI封禁了使用权限。

然而，当前并无直接证据能证明DeepSeek的大模型是通过对OpenAI模型的蒸馏。

首先， DeepSeek发布的v3和R1均为开源模型，而OpenAI自GPT-2后，便采取了闭源策略。并且DeepSeek的核心技术之一的思维链（COT）几乎不可能通过蒸馏一个闭源模型而获得。

其次，在多数情况下，若教师模型采用其他公司的成熟模型，学生模型在学习过程中会产生损失（loss），且最终输出内容会有一定的相似特征。而有技术人士通过测试两者在AIME2024的表现时，差异是比较明显的，DeepSeek-R1在部分学科的表现要更优于OpenAI-o1。

另据DeepSeek早前发布的V3模型的技术文档显示：针对推理相关数据集（如数学、代码竞赛、逻辑谜题等），DeepSeek-V3利用之前训练好的 DeepSeek-R1模型生成数据后，再使用结合了监督微调（SFT）和强化学习（RL）训练的专家模型来蒸馏生成最终的数据；针对非推理数据（如创意写作、角色扮演、简单问答等），使用DeepSeek-V2.5生成回复，并由人类验证数据的准确性和正确性。

由此来看，DeepSeek确实使用了蒸馏技术，但仅仅是用于对其自身模型的迭代优化。

“搅局”还是“创新”

有观点认为，此次openAI开始围剿DeepSeek，最主要原因是其击碎了openAI的对行业的技术垄断。

比如在此之前，只有openAI采用长思维链(Long-CoT)模式代替了传统的提示链(Prompt chain)模式，并取得了更好的推理效果。但如今DeepSeek不仅做到同样的水准，还将其开源了出来。

OpenAI首席研究官Mark Chen也承认道，DeepSeek的确独立发现了一些o1的核心idea。

不过， DeepSeek之所以如此出圈，不止是其对标openAI的技术追赶。相反，DeepSeek的诸多创新和实践已经远远领先于全球AI行业。只是不同于openAI由0到1的创新，DeepSeek更多的是工程方面的创新。

例如此次发布的R1-Zero模型中，最受人瞩目的当属其颠覆性的强化学习（RL）策略。

按照DeepSeek的介绍，DeepSeek-R1-Zero直接将RL应用于基座模型，没有经过任何的监督式微调（SFT）。即让模型自己去进行学习，在此过程中不做人工干预。

有技术人士将这一过程比喻为婴儿学习走路，在不借助外力的情况下，自己进行适应学习和内部协调，也能达到良好训练结果。而这也是DeepSeek带给行业最大的启发。

不仅如此，DeepSeek超低的训练成本也彻底颠覆了原来的市场认知。

从时间维度上来看，2024年5月，DeepSeek发布V2模型，其API调用定价为每百万tokens输入1元、输出2元（32K上下文），价格为当时GPT-4-Turbo的近百分之一。让一众国产AI大模型厂商关注到巨大的成本降幅空间，由此纷纷下调大模型服务价格。部分厂商甚至宣布免费开放大模型的使用权限。因此，当时有媒体称大模型进入“免费时代”。

同年12月，DeepSeek又发布了升级的V3模型。根据其他媒体报道，V3模型仅用了2048块GPU，训练了不到2个月，共花费约550多万美元。而GPT-4o模型训练成本约为1亿美元，这意味着DeepSeek的成本只有GPT-4o的1/20。

这归功于DeepSeek在新模型中，引入了诸如混合专家（MoE）、低秩注意力（MLA）、多token预测、FP8混合精度、GPU部署优化等多个创新设计和技术突破。使其在有限的资源算力下，实现了更高效的资源调度。

客观来看，DeepSeek的创新和开源极大加速了AI行业的发展进程。

有报道称，Meta已经成立了四个专门研究小组来研究DeepSeek的工作原理，并将基于此来改进旗下大模型Llama。

苹果CEO库克也在近日的投资者电话会议上，解释称这一具有颠覆性的新模型对苹果而言是一项积极进展。

在部分社交媒体的发言上，能看出DeepSeek的成功极大鼓舞了很多AI初创企业的从业人员对未来的信心。而相比之前，绝大部分初创企业受制于资金的限制而难以跻身行业前列。

因此，有观点认为DeepSeek帮助了整个AI行业实现了历史性的跨越。

中美暗战是否升级

截至目前，国际舆论对DeepSeek呈现出了较为矛盾的两极分化。例如在美国白宫质疑DeepSeek可能影响国家安全的前一天，特朗普才刚刚对其予以了较为积极的评价。

当前，DeepSeek并未回应任何质疑或指控，不过已经有多个国家或地区的相关部门对此作出反应。

意大利的Google Play 和苹果 App Store 已经率先下架DeepSeek应用。此前，意大利隐私监管机构Garante表示，正要求DeepSeek提供关于个人数据使用问题的解释。

1月29日，澳大利亚国库部长吉姆·查默斯呼吁公民，在使用中国初创公司深度求索的人工智能模型时须谨慎。

1月30日，爱尔兰数据保护委员会要求DeepSeek就其人工智能大模型如何使用用户数据提交报告。

而美国的态度则让市场开始担忧，DeepSeek是否会继中兴、华为、抖音之后，成为另一个中美角逐的新战场。

当地时间1月31日，美国众议院首席行政事务官向国会办公室发出通知，警告国会办公室不要使用中国的人工智能应用DeepSeek的服务。

三天前，已有媒体曝光美国海军已要求人员避免以任何形式使用DeepSeek模型，基于“潜在安全和道德问题”。

美国商务部长提名人Howard Lutnick在提名确认听证会上称：DeepSeek“窃取美国知识产权”，承诺要在就任后严格执行对中国的出口管制，以阻止中国“使用美国的技术与美国竞争”。

Claude的创始人Dario Amodei在近日发表博客，称：DeepSeek的进展让美国对中国的芯片出口管制政策，比一周前更加关乎美国的“生死存亡”，并要求美国加强对中国的芯片封锁。

此外，在1月30日凌晨，中国奇安信XLab实验室监测发现，针对DeepSeek、线上服务的攻击烈度突然升级，其攻击指令较1月28日暴增上百倍。奇安信安全专家透露，DeepSeek这次受到的网络攻击，IP地址都在美国。

360创始人周鸿祎则针尖对麦芒地宣布，将无偿为DeepSeek提供全方位网络安全防护，并同步在旗下纳米AI搜索开通“DeepSeek高速专线”，启用最高规格的R1高速专线和专属防攻击机房。

部分市场观点认为，DeepSeek证明了中国已经突破了美国实施的芯片和算力封锁。而不久前的1月13日，美国前总统拜登离任前刚刚签署《人工智能扩散暂行最终规则》，对AI计算数据中心的芯片建立了三级许可制度，限制了包括中国在的内多个国家对先进GPU的获取。

有业内人士判断，未来算力将不再是AI模型训练的瓶颈。这也是此次市场反应剧烈的原因。

DeepSeek发模型，英伟达买单？

当DeepSeek于1月20日发布新模型后，随着市场热度的不断飙升，最终引发了美股大型科技股集体暴跌，一天内蒸发了超过1.3万亿美元，粗略估算，相当于减少了超过10万亿元人民币。

周一（27日），全球最大芯片公司英伟达跳水17%，市值蒸发近5900亿美元，创下美股公司单日市值最大蒸发的历史记录。不仅如此，包括芯片制造商博通公司、台积电、甲骨文、Marvell、美光科技等跌幅均在10%以上。造成当日美国纳斯达克指数也因此下滑了3.1%；费城半导体指数下跌9.15%。

此外，市场情绪还波及到了与AI关系密切的电力能源股，美国联合能源公司股价下跌21%，Vistra的股价下跌29%。

有传言称，DeepSeek母公司幻方量化做空了英伟达；也有观点认为DeepSeek绕过了英伟达所构建的行业生态，引发了市场对英伟达的价值重估。

但目前为止，没有迹象表明此次幻方量化通过做空英伟达或其他美股公司获利；而DeepSeek事实上也没有突破英伟达的行业生态。

据了解，CUDA是英伟达设计的基于GPU的通用并行计算平台和编程模型，也是英伟达所有产品和服务的坚实基座，由此构建出的软件和硬件生态是其最重要的护城河。

目前，业内绝大部分模型训练框架均需依赖CUDA内核，例如Pytorch是当前市场上主流的模型训练框架，而DeepSeek的模型也正是基于Pytorch的训练框架。

此外，CUDA与英伟达自己的GPU硬件结合得更加紧密，可以更有效地利用其性能。并且在多张GPU的通信方面，业内也普遍认可英伟达的效率更加高效。

因此，以目前DeepSeek的技术和规模还难以达到能绕开英伟达生态的程度。甚至由于AI大模型训练和部署效率的大幅提升，可能会吸引更多参与者入局，从而增加了市场整体对英伟达GPU产品的需求。

但无论如何，DeepSeek确实是让投资者开始重新审视AI科技股的估值方式，也极大地启发了业内对AI行业未来的创新模式和发展方向产生新的思考。

证券之星微信

扫描二维码

关注

证券之星微信