(原标题:DeepSeek为何影响英伟达股价?用大白话说DeepSeek)
(一)美对DeepSeek下手了
DeepSeek热度居高不下!
最近几天,DeepSeek从惊艳到惊吓,从被认可到被质疑,被威胁,比如,
美 国海 军已要求人员避免以任何形式使用中国公司的DeepSeek模型。
多名官 员也表示DeepSeek是“偷窃”,正对其影响开展国 家安 全调查。
同时,美新任白宫新闻秘书卡罗琳·莱维特表示:
白宫正在努力确保美国人工智能的主导地位,美安全委员会正在调查DeepSeek带来的影响是什么,
美公司“需要专注于竞争以赢得胜利”。
————
“DeepSeek-R1是一款令人印象深刻的模型,尤其是考虑到它能够以这个价格提供(这样的产品)。”
美国开放人工智能研究中心(OpenAI)首席执行官萨姆·奥尔特曼对DeepSeek-R1模型首次亮相表示欢迎,
但是,28日,OpenAI发布最新声明称,其采取各种对 策来保护知识产权,
OpenAI相信与美国政 府紧密合作以保护美 国大模型技术非常重要。
(二)英伟达股价再度杀跌原因
事情处于不断的演化当中,再度迎来大消息。
1、
微软CEO纳德拉在电话会上强调,DeepSeek R1模型目前已可通过微软的AI平台Azure AI Foundry和GitHub获取,
并且很快就能在Copilot+电脑上运行。
纳德拉称,DeepSeek“有一些真的创新”,AI成本下降是趋势:缩放定律在预训练、推理时间计算中不断积累。
在推理方面,我们通常看到每一代硬件的性价比提高2倍以上,每一代模型的性价比提高10倍以上。
2、
另外,专业人士分析称,DeepSeek的突破是通过实施大量细粒度优化,
而不是Nvidia的CUDA来实现的。
这是否是昨晚英伟达股价再度杀跌的主因,还有待考证。
不过,“算力通缩”似乎正在成为流行词汇。
有消息指出,美国商务部正在讨论禁售英伟达H20,这或许也是该股杀跌的原因之一。
(三)冲击英伟达护城河?
目前,市场上还有一种说法:DeepSeek甚至绕过了CUDA,并因此冲击到了英伟达的护城河。
韩国未来资产证券的分析称,V3的硬件效率之所以能比Meta等高出10倍,
可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,
他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制,这是一突破。
这些修改远远超出了标准CUDA级开发的范围,但维护起来却非常困难。
因此,这种级别的优化反映了DeepSeek工程师的卓越技能。
全球GPU短缺,加上美 国的限制,迫使DeepSeek等公司采用创新解决方案,DeepSeek也取得了突破。
不过,分析认为,DeepSeek做了PTX级别的优化,不意味着完全脱离了CUDA生态,
但确实代表他们有优化其他GPU的能力。
(四)人工智能股票大幅抛售
DeepSeek导致人工智能股票大幅抛售,因为人们担心模型不再需要那么多计算能力。
扎克伯格试图打消人们对他在GPU上花费的数十亿美元将白费的担忧:
“我仍然认为,从长远来看,在资本支出和基础设施方面投入大量资金将是一种战略优势。”
他还指出Meta拥有“强大的商业模式”来支持其今年在人工智能方面投入的约600亿美元,
而“其他公司不一定拥有可持续的商业模式来支持它”。
(五)窃取?
1)“有大量证据表明,DeepSeek将OpenAI的知识,通过蒸馏提炼到DeepSeek中”白宫人工智能、加密货币事务负责人表示。
2)人工智能副总裁Naveen Rao表示,在人工智能行业,向竞争对手学习是“理所当然的事”。
当你拥有Mistral和Llama等开源模型时,模型提炼是不可能停止的。
它们可供所有人使用。
DeepSeek在最近的一篇研究论文中表示,
它使用“蒸馏”技术从其最强大的模型R1中获取输出,以训练表现出类似推理能力的较小模型。
(六)大白话说DeepSeek
幻方系模型的出圈不是第一次了,科技界和投资界的人应该颇有感受。
此前DeepSeek-V3就以低成本、高通用性对大家进行了冲击,
这次R1通过强化学习实现了专业领域的推理突破,并在开源生态中提供了灵活的蒸馏方案,再一次冲击了市场。
这次R1的市场关注度显著高于V3。
1、DeepSeek如此出圈的原因?
能力出众、巨量下载、开源、性价比。
2、为什么DeepSeek能实现如此快速的赶超?
DeepSeek站在巨人的肩膀上,存在大量的知识蒸馏。
如果没有对GPT 4o、o1的访问,DeepSeek可能无法展现现在的成果。
“600万美元开支”,并不包括“前期研究和架构、算法和数据消融实验等相关的成本”,
所以,单纯的比较DeepSeek-R1的投入、大厂对大模型的投入是不合理的。
1)
R1更聚焦,区别于大厂更多的将注意力投入在多模态,R1集中在语言,让模型的速率、质量、成本有了进一步的改善。
但这个行为本身并没有提高智能的边界,只是让智能更易得。
同时R1局部的能力突出,也不能掩盖大厂多模态模型的整体性能。
3、DeepSeek作为“算力屠夫”,对算力需求的影响如何?
1)
DeepSeek通过工程化的技巧,在几个较大的scaling方向上,节约了硬件支出。这在短期对硬件需求确实会带来影响,
但并不改变长期对算力的巨大需求,事实上各家大厂仍处于算力不够用的状态。
DeepSeek-R1站在巨人的肩膀上,展现了优异的表现,但不代表未来的训练成本会降低。
2)
蒸汽机的出现降低了单位煤耗,但大幅提升了煤炭用量。
单位AI算力成本的大幅下降,也会带来算力需求的暴涨,进而带来整体市场空间的扩大。
短期看,DeepSeek的技术路线可能引领大模型厂商降低算力需求,
同在杭州的阿里已经借鉴DeepSeek推出了千问2.5Max,
但长期而言,低成本模型必然推动推理需求大幅度增长,事实上,一个小小的应用场景即可创造大规模的推理需求,
未来软硬件都有很大的发展机会。
此前业界认为中国AI进展落后美国2年,DeepSeek的出现将差距缩短至1-3Q,但仍有差距,
需要持续迭代改善,芯片也依旧是一个重要的发展点,不能因为DeepSeek的局部表现突出而盲目乐观。
从二级市场的角度,投资人普遍认可DeepSeek对短期硬件个股的冲击,
但基于长期的展望,下跌就是机会,AI的软硬侧都有布局机会,但“软”的A股标的仍然缺失。
谢谢这么优秀的你还关注了我??,希望能为你节省时间打破信息差~
$每日互动(SZ300766)$ $浙江东方(SH600120)$ $华金资本(SZ000532)$ #雪球星计划# #deepseek #