首页 - 财经 - 滚动新闻 - 正文

AI“盗火者”DeepSeek,正立于风雪

来源:和讯财经 2025-01-31 22:36:55
关注证券之星官方微博:

(原标题:AI“盗火者”DeepSeek,正立于风雪)

“希腊神话中,普罗米修斯为了造福人类,冒着危险从太阳神处盗取火种,并带到了人间。从此,人类结束了漫长艰难的黑暗时代。”

正值中国传统春节之际,全国人民沉浸在祥和喜庆的氛围当中。但在科技领域里,一场从春节前夕便开始掀起的技术革命正席卷着整个行业,并大有愈演愈烈之势。

1月20日,中国AI创新企业深度求索(DeepSeek)正式发布了推理模型DeepSeek-R1,以及同步开源模型权重。一经发布,便以其惊人的性能和成本引爆了全球AI科技圈,甚至造成了美股的大幅震荡。而DeepSeek应用也登顶苹果中美两地应用商店免费APP下载排行榜。

一时间,世界各地都在热议DeepSeek。然而,美国当地时间1月28日,多名美国官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。新任白宫人工智能和加密货币负责人David Sacks在接受福布斯的采访时认为:“DeepSeek“可能”窃取了美国的知识产权才得以崛起。”

由此,DeepSeek也被顶上了全球舆论的风口浪尖。

“蒸馏”技术再引争议

此次美国政府对DeepSeek进行指控的主要焦点,在于DeepSeek训练模型时采用的“模型蒸馏(Model Distillation)”技术。

据了解,模型蒸馏是AI大模型主流压缩技术中的一种。其目的是在保留模型性能的前提下,将复杂的、大体量的AI大模型,压缩成为体量相对较小的AI模型。从而减少企业部署AI模型的成本,提高模型的推理效率。

这个过程中,将分别涉及一个被称为“教师模型(Teacher Model)”和一个“学生模型(Student Model)”两个角色。其中,教师模型就是压缩前的AI大模型,学生模型即压缩之后的模型,并往往是一个新建的模型。蒸馏过程中,将对教师模型和学生模型输入相同的token,并引导学生模型的最终输出内容趋同于教师模型的最终输出内容。

通常情况下,教师模型会使用已经被训练好的成熟的AI大模型。此次,David Sackss对福克斯新闻说,有“重大证据”表明DeepSeek从美国公司OpenAi的大模型中蒸馏知识。

OpenAI亦表示已经发现证据,证明了DeepSeek利用他们的模型进行训练,涉嫌侵犯知识产权。在OpenAI的使用协议中,用户被禁止使用输出开发竞争模型。不过,OpenAI公司并未提供证据的细节。

在AI领域中,模型蒸馏是一种业内常用的提高大模型训练速度的技术手段。例如Claude、豆包、Gemini、Llama3.1等多个模型均经过知识蒸馏。

对于模型蒸馏是否合法,业内有较大的分歧。在传统的软件行业中,代码的直接复制抄袭是侵犯了知识产权。但AI领域中,模型蒸馏的本质上是“学习”而非“复制”,所以AI 训练数据本身的版权问题仍然存在争议。

有些公司会通过附加使用条款,来限制未经授权的 API 访问和商业模型数据的滥用。例如2023年12月份,字节跳动被曝光出正在研发一个名为“种子计划”(Project Seed)的AI大模型项目中,在训练和评估模型等多个研发阶段调用了OpenAI的API,并使用ChatGPT输出的数据进行模型训练,因此被OpenAI封禁了使用权限。

然而,当前并无直接证据能证明DeepSeek的大模型是通过对OpenAI模型的蒸馏。

首先, DeepSeek发布的v3和R1均为开源模型,而OpenAI自GPT-2后,便采取了闭源策略。并且DeepSeek的核心技术之一的思维链(COT)几乎不可能通过蒸馏一个闭源模型而获得。

其次,在多数情况下,若教师模型采用其他公司的成熟模型,学生模型在学习过程中会产生损失(loss),且最终输出内容会有一定的相似特征。而有技术人士通过测试两者在AIME2024的表现时,差异是比较明显的,DeepSeek-R1在部分学科的表现要更优于OpenAI-o1。

另据DeepSeek早前发布的V3模型的技术文档显示:针对推理相关数据集(如数学、代码竞赛、逻辑谜题等),DeepSeek-V3利用之前训练好的 DeepSeek-R1模型生成数据后,再使用结合了监督微调(SFT)和强化学习(RL)训练的专家模型来蒸馏生成最终的数据;针对非推理数据(如创意写作、角色扮演、简单问答等),使用DeepSeek-V2.5生成回复,并由人类验证数据的准确性和正确性。

由此来看,DeepSeek确实使用了蒸馏技术,但仅仅是用于对其自身模型的迭代优化。

“搅局”还是“创新”

有观点认为,此次openAI开始围剿DeepSeek,最主要原因是其击碎了openAI的对行业的技术垄断。

比如在此之前,只有openAI采用长思维链(Long-CoT)模式代替了传统的提示链(Prompt chain)模式,并取得了更好的推理效果。但如今DeepSeek不仅做到同样的水准,还将其开源了出来。

OpenAI首席研究官Mark Chen也承认道,DeepSeek的确独立发现了一些o1的核心idea。

不过, DeepSeek之所以如此出圈,不止是其对标openAI的技术追赶。相反,DeepSeek的诸多创新和实践已经远远领先于全球AI行业。只是不同于openAI由0到1的创新,DeepSeek更多的是工程方面的创新。

例如此次发布的R1-Zero模型中,最受人瞩目的当属其颠覆性的强化学习(RL)策略。

按照DeepSeek的介绍,DeepSeek-R1-Zero直接将RL应用于基座模型,没有经过任何的监督式微调(SFT)。即让模型自己去进行学习,在此过程中不做人工干预。

有技术人士将这一过程比喻为婴儿学习走路,在不借助外力的情况下,自己进行适应学习和内部协调,也能达到良好训练结果。而这也是DeepSeek带给行业最大的启发。

不仅如此,DeepSeek超低的训练成本也彻底颠覆了原来的市场认知。

从时间维度上来看,2024年5月,DeepSeek发布V2模型,其API调用定价为每百万tokens输入1元、输出2元(32K上下文),价格为当时GPT-4-Turbo的近百分之一。让一众国产AI大模型厂商关注到巨大的成本降幅空间,由此纷纷下调大模型服务价格。部分厂商甚至宣布免费开放大模型的使用权限。因此,当时有媒体称大模型进入“免费时代”。

同年12月,DeepSeek又发布了升级的V3模型。根据其他媒体报道,V3模型仅用了2048块GPU,训练了不到2个月,共花费约550多万美元。而GPT-4o模型训练成本约为1亿美元,这意味着DeepSeek的成本只有GPT-4o的1/20。

这归功于DeepSeek在新模型中,引入了诸如混合专家(MoE)、低秩注意力(MLA)、多token预测、FP8混合精度、GPU部署优化等多个创新设计和技术突破。使其在有限的资源算力下,实现了更高效的资源调度。

客观来看,DeepSeek的创新和开源极大加速了AI行业的发展进程。

有报道称,Meta已经成立了四个专门研究小组来研究DeepSeek的工作原理,并将基于此来改进旗下大模型Llama。

苹果CEO库克也在近日的投资者电话会议上,解释称这一具有颠覆性的新模型对苹果而言是一项积极进展。

在部分社交媒体的发言上,能看出DeepSeek的成功极大鼓舞了很多AI初创企业的从业人员对未来的信心。而相比之前,绝大部分初创企业受制于资金的限制而难以跻身行业前列。

因此,有观点认为DeepSeek帮助了整个AI行业实现了历史性的跨越。

中美暗战是否升级

截至目前,国际舆论对DeepSeek呈现出了较为矛盾的两极分化。例如在美国白宫质疑DeepSeek可能影响国家安全的前一天,特朗普才刚刚对其予以了较为积极的评价。

当前,DeepSeek并未回应任何质疑或指控,不过已经有多个国家或地区的相关部门对此作出反应。

意大利的Google Play 和苹果 App Store 已经率先下架DeepSeek应用。此前,意大利隐私监管机构Garante表示,正要求DeepSeek提供关于个人数据使用问题的解释。

1月29日,澳大利亚国库部长吉姆·查默斯呼吁公民,在使用中国初创公司深度求索的人工智能模型时须谨慎。

1月30日,爱尔兰数据保护委员会要求DeepSeek就其人工智能大模型如何使用用户数据提交报告。

而美国的态度则让市场开始担忧,DeepSeek是否会继中兴、华为、抖音之后,成为另一个中美角逐的新战场。

当地时间1月31日,美国众议院首席行政事务官向国会办公室发出通知,警告国会办公室不要使用中国的人工智能应用DeepSeek的服务。

三天前,已有媒体曝光美国海军已要求人员避免以任何形式使用DeepSeek模型,基于“潜在安全和道德问题”。

美国商务部长提名人Howard Lutnick在提名确认听证会上称:DeepSeek“窃取美国知识产权”,承诺要在就任后严格执行对中国的出口管制,以阻止中国“使用美国的技术与美国竞争”。

Claude的创始人Dario Amodei在近日发表博客,称:DeepSeek的进展让美国对中国的芯片出口管制政策,比一周前更加关乎美国的“生死存亡”,并要求美国加强对中国的芯片封锁。

此外,在1月30日凌晨,中国奇安信XLab实验室监测发现,针对DeepSeek、线上服务的攻击烈度突然升级,其攻击指令较1月28日暴增上百倍。奇安信安全专家透露,DeepSeek这次受到的网络攻击,IP地址都在美国。

360创始人周鸿祎则针尖对麦芒地宣布,将无偿为DeepSeek提供全方位网络安全防护,并同步在旗下纳米AI搜索开通“DeepSeek高速专线”,启用最高规格的R1高速专线和专属防攻击机房。

部分市场观点认为,DeepSeek证明了中国已经突破了美国实施的芯片和算力封锁。而不久前的1月13日,美国前总统拜登离任前刚刚签署《人工智能扩散暂行最终规则》,对AI计算数据中心的芯片建立了三级许可制度,限制了包括中国在的内多个国家对先进GPU的获取。

有业内人士判断,未来算力将不再是AI模型训练的瓶颈。这也是此次市场反应剧烈的原因。

DeepSeek发模型,英伟达买单

当DeepSeek于1月20日发布新模型后,随着市场热度的不断飙升,最终引发了美股大型科技股集体暴跌,一天内蒸发了超过1.3万亿美元,粗略估算,相当于减少了超过10万亿元人民币。

周一(27日),全球最大芯片公司英伟达跳水17%,市值蒸发近5900亿美元,创下美股公司单日市值最大蒸发的历史记录。不仅如此,包括芯片制造商博通公司、台积电、甲骨文、Marvell、美光科技等跌幅均在10%以上。造成当日美国纳斯达克指数也因此下滑了3.1%;费城半导体指数下跌9.15%。

此外,市场情绪还波及到了与AI关系密切的电力能源股,美国联合能源公司股价下跌21%,Vistra的股价下跌29%。

有传言称,DeepSeek母公司幻方量化做空了英伟达;也有观点认为DeepSeek绕过了英伟达所构建的行业生态,引发了市场对英伟达的价值重估。

但目前为止,没有迹象表明此次幻方量化通过做空英伟达或其他美股公司获利;而DeepSeek事实上也没有突破英伟达的行业生态。

据了解,CUDA是英伟达设计的基于GPU的通用并行计算平台和编程模型,也是英伟达所有产品和服务的坚实基座,由此构建出的软件和硬件生态是其最重要的护城河。

目前,业内绝大部分模型训练框架均需依赖CUDA内核,例如Pytorch是当前市场上主流的模型训练框架,而DeepSeek的模型也正是基于Pytorch的训练框架。

此外,CUDA与英伟达自己的GPU硬件结合得更加紧密,可以更有效地利用其性能。并且在多张GPU的通信方面,业内也普遍认可英伟达的效率更加高效。

因此,以目前DeepSeek的技术和规模还难以达到能绕开英伟达生态的程度。甚至由于AI大模型训练和部署效率的大幅提升,可能会吸引更多参与者入局,从而增加了市场整体对英伟达GPU产品的需求。

但无论如何,DeepSeek确实是让投资者开始重新审视AI科技股的估值方式,也极大地启发了业内对AI行业未来的创新模式和发展方向产生新的思考。

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示奇安信盈利能力较差,未来营收成长性良好。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-