首页 - 财经 - 滚动新闻 - 正文

关于DeepSeek,你可能还不知道的10件事

关注证券之星官方微博:

(原标题:关于DeepSeek,你可能还不知道的10件事)

2025年1月20日,中国初创企业深度求索(DeepSeek)推出开源大模型DeepSeek-R1。“极低成本对标顶尖性能”的技术突破,引得一众硅谷科技巨头连夜发声。短短一周内,DeepSeek登顶全球140个市场的应用商店下载榜,甚至因访问量过载一度“崩服”。这场“技术地震”,也迅速反映在了资本市场上。2月4日恒生科技指数单日涨幅超5%,节后第一个交易日,科创50上涨2.9%,Wind DeepSeek概念板块涨近14%。(数据来源:Wind)

市场上关于DeepSeek的说法,哪些是真知灼见,哪些又是夸大其词?作为投资者,我们又如何理解它将对AI行业产生的影响?为此,我们专访了深耕TMT行业的兴证全球基金基金经理助理朱可夫,聊了聊10个大家关心的话题。

【01】“DeepSeek,AI领域的iPhone时刻?”

问:有人说DeepSeek是AI领域的iPhone时刻,您怎么看这句话?

朱可夫:我认为DeepSeek在全球科技界的震动非常大,它像是一个科技史上的历史时刻。震动较大的主要原因有两个,第一,它是由中国公司独立完成的一个较大创新。虽然这个技术领域的创新美国的同行也在做,但是我们进展更快、更前沿。

第二点,我们在这件事情上做到了极致的降本增效,震动了全球科技界。AI是一个全世界大部分聪明大脑共同进行技术对战的领域。DeepSeek的梁文峰总提到他站在巨人的肩膀上进行技术创新。而在这段时间,中国的科学家和公司可能相对领先。这是历史上一个比较值得铭记的创新时间点。

【02】“600万的成本,干翻数十亿?”

问:DeepSeek做到了极致的降本增效,有人说,DeepSeek用600万美元干翻了硅谷巨头们花费数十亿美金训练的AI模型?您怎么看这句话?

朱可夫:我们对此进行了深入研究和讨论,并且翻阅了大量材料。600万美金是DeepSeek-R1进行一次训练的成本。如果我们进行比较,ChatGPT训练GPT-4o的单次成本,大约为五六千万美金左右,因此降本幅度接近90%。但这并不代表只花费了600万美金就完成了R1这个模型,技术路径更像一条上升曲线,斜率会突然变陡。在DeepSeek-R1出现之前,DeepSeek-V3已经实现较好的降本效果,但总体来讲,R1这一次确实有一个比较大的降本点的出现。

我们还可以从另一个视角来看待这件事情。科技史上的硬件或者偏infra(基础设施)的部分,降本速度都是比较快的。根据美国Anthropic公司的CEO的表述,在AI这条路上,目前token的成本,大约是以每10个月接近4倍的速度在往下走,只是谁先到达阶段性节点的问题。那这次相当于DeepSeek先到了这个点,然后我们再往下一个节点进发。

至于如何理解刚才提到的单次训练成本,对于大模型,它本身需要一个庞大的infra集群,一个巨量的卡集群去做训练,并且还需要配置大量人员进行工程化调试。

大模型的核心成本就是服务器集群和人力成本。根据公开报道,DeepSeek有万卡以上的集群进行训练使用,具体数量众说纷纭。如果我们相信万卡集群在不断工作,并训练下一代模型。按照曾经的一篇公开论文表述,R1的前身模型V3通过2000多张卡,训练了大约一个月左右,如果R1花费的时间并没有比V3更多,那么大概对应的训练成本是600万美金。但事实上不可能只训练一次模型,而是会训练很多次。这相当于集群一直工作,理论上讲集群成本和里面耗费的人力成本应该打包计算,这是一个更大的数字。

【03】“这是一次工程的胜利?”

问:大家都在讨论DeepSeek的创新,但有人认为这种创新可能来自工程领域,而非科技前沿探索,并认为这是工程的胜利。您能否科普一下它最核心的创新点? 

朱可夫:AI可以理解为一个人的智力。我们可以将训练AI的方式和花费成本理解为一个老师教授一个班级的过程,教师教育学生的时间成本相当于我们训练AI花费的成本。我们的目标就是把这个班级的考试分数提高,也就是把AI的能力提高。

那么,DeepSeek的工程设计创新主要体现在哪些方面?

首先,DeepSeek对注意力机制进行了巨大创新。注意力机制是什么?我们可以进行不恰当的类比,例如我们想让班上的学生学会打篮球、排球等。在这个过程中,我们可以告诉孩子不要纠结篮球的颜色,这就是一个球体,接到球后就可以投球,这样他们学习起来会更快,不用再纠结于球是红色的还是绿色的,绿色的球是不是就不能投了。这种注意力机制创新就导致训练成本大幅下降,也就是专业术语中的MLA。

第二类是对效率进行创新,例如班级上做一张试卷,我们可以让第一组只做语文,第二组只做数学,第三组只做英语。这样我们在考英语卷子的时候,第一组和第二组就不要参与了,这种创新就是我们听到的MoE,混合专家模型。在这一方面,DeepSeek比OpenAI更加极致,OpenAI大约有十几个二十个“专家”在其中进行单独的任务筛选。DeepSeek应该是能做到两百多个“专家”在里面挑,任务出现时,只激活其中的某一些部分,这样的话它又实现了大幅的降本。

第三个创新方法是在教学工具上进行创新。比方说我们可能统一的都是用全国版的教材,但是可能我们是个江苏省的班级,我们就用苏教版的教材,这样的话我们自己写了一本教材,这个教材就专门针对江苏省的考试,这样的话可能分就会考的更高。具体来说,他们在GPU的创新上用了PTX优化技术,绕开通用的CUDA语言去编写了自己的一些汇编语言,调用GPU的效率会更高,这就跟我们这种教材式的创新是类似的。

【04】“DeepSeek问世,全球AI算力需求可能会变天?”

问:可以看到DeepSeek问世,对英伟达的股价造成了非常大的负面影响,有人说全球的AI算力需求可能会变天,因为它极致压缩了对于算力的需求,您怎么理解这个问题呢?

朱可夫:这个问题可能会比较没有标准答案一些,因为可能每个人都有每个人的看法。我想引用一下微软的CEO Satya的一个表述,他提出了一个科技史上比较有名的一个悖论叫做杰文斯悖论,它的意思就是说,当科技史上某一个东西呈现出一个极致通缩状态的时候,大家对它的用量反而不会减少,反而会增多。典型的就是芯片或者其他可能用于计算的东西,在降本降价之后反而还更普及了,计算机从大型机变成了小型机、再变成手提电脑,走进千家万户。

他认为大模型的例子也是一样的,降本之后导致的降价其实会导致大量的人去用起来这个AI,我相信可能大家在春节的时候也能感觉到AI在我们生活当中渗透率其实是越来越高的。如果DeepSeek这个技术路线能够被大家吸纳、进一步创新的话,有可能整个的大模型的成本会被迅速降下来,这样的话可能千家万户就能够迅速把这个模型给用起来。

从短期的角度来看,确实我们不可否认的是,我们之前认为需要大量堆算力,才能把最前沿的模型堆出来,无论是中国的巨头还是海外的巨头其实都投入了大量的资本去做前置的建设。那目前相当于突然之间发现另外一个路线也能够逼近前沿模型,那你还是不是需要去坚守你大量投入算力的状态,这是存疑的。所以长期来看我们认为前景肯定是比较光明的,算力需求的上升幅度是不会被改变的,但可能短期的节奏会有一些扰动。

【05】“后端应用将迎来大规模爆发?”

问:其实DeepSeek有一个特点,它是一个开源的大模型,那么它是否会带来后端应用的大规模爆发?

朱可夫:对于这一点的话,其实我认为无论DeepSeek是否出现,我们都会在未来的两三年里面看到大量的应用爆发,但这是我个人的观点。我想可以从三个角度来讲这个事情。

第一个角度来讲的话,科技史的创新都是由技术引领的,之后一两年左右它的技术曲线逐渐趋缓的过程当中,会解锁不一样的场景,而且这个解锁的场景其实是逐步升级的,而且越升级的话它适用的范围会越广。如果我们回想一下移动互联网时期,其实大家在最开始,在手机上也只能玩贪吃蛇这样的游戏,但是慢慢你会发现自己开始能在上面切西瓜了,慢慢发现自己还能玩王者荣耀了,现在你甚至在手机上跑一个3A手游都已经没有什么障碍了。其实AI也是同样的道理。目前从整个ChatGPT的火热到现在为止,大概已经有接近两年半的时间了。到目前为止,大家已经解锁了非常多的场景,越到后面解锁的场景会越来越多,这是第一个角度。

第二个角度,关于开源跟闭源的问题,某种意义上来讲,开源模型它的普及和它的技术进步更能够促进下游应用的爆发。我们可以回想一下在移动互联网时期,iPhone首先定义了智能手机应该怎么做,安卓再去定义了一个开源的系统应该怎么做,最终导致大量的智能机的出现,这时候中国人开始人手一个智能机,这个时候大家才普及了所有的应用场景。其实安卓在普及的速度上是比iPhone要更快一些的。现在DeepSeek还有包括阿里的千问,其实都做了很多开源的工作,这个事情对信息的平权,对技术的平权,我觉得是有极大的帮助。

第三个角度,这个事到底会不会带来商业化的应用,也就是应用本身能够赚很多钱这个事情,我们可以理解为技术就是一个大树,每长到一层就会出来一些分支,一些枝干,在这些枝干上你能构建出合适的商业场景,并且在里面合理的跟用户做良性的互动,用户收获了情绪的价值或者收获了效率的价值,你就能收到一些商业的价值。这个是真正的核心,所以我们可以理解为OpenAI一直做前沿技术探索,DeepSeek很快追到最上面那个枝干上。

其实过去的一年应该是应用的商业化让大家失望的一年。它有两个很重要的原因,第一确实是模型的智能水平,你可以理解为长出来的那个枝干还不够高,现在其实它的主干已经够高了。第二就是它的模型不够便宜,你可以理解为长出来的枝干不够粗壮,现在可以理解为长出来的分支也已经很粗壮了。理论上来讲你又是一个高的树,又是一个很粗壮的分支,能够结出来的果实应该也是一个比较好的果实。我觉得应该是越来越乐观的这样一个状态。

【06】“中国科技资产价值,正在被重估?”

问:回到投资这块,您觉得最近DeepSeek的爆发会不会带动中国科技资产价值的重估? 

朱可夫:是的,或者说我觉得硅谷的叙事会有一些变化,原来的叙事逻辑应该是,美国是在前沿的这些技术上是遥遥领先的,依据他们在这方面的领先他们就能够做出一个很超越市场平均价格的定价,以达到超额的利润,通过这个超额的利润再进行下一轮超额的投资,这样的话再积累足够的竞争优势,这应该是原来硅谷的叙事。

但由于我们本身中国的工程师红利,还有本身我们的技术差距其实并没有那么大,DeepSeek做出了一个很好的范例,把这个技术的差距给缩小了。那有没有可能中国在这个事情上至少把美国拿到的大量超额利润分过来一部分,或者说至少别人拿到的没有那么多了,我觉得这是我们现在在观察的一个事情。

但是这一次对于中国的本身科技市场来说是不是一个非常大的重估机会,我个人偏向于说认为也是边走边观察的,因为我们要看到中国的大模型和整个的云产业,还有包括上游的硬件产业,包括软件产业,是否能够依据新一轮的科技创新拿到新的商业价值,拿到商业价值之后我们才能依此去做一个好的定价。只是现在来看好像概率稍微大了一些,我们可以大概理解为这么一个结构。

【07】“AI赛道上,中美技术差距有望缩小?”

问:刚刚您说的DeepSeek完成的MoE混合专家等等机制的创新,它是不是我们希望的中美技术差距缩小的方式呢?

朱可夫:目前来看的话,我认为其实在这一轮的大模型创新里面,其实一开始的技术路线已经确定了,大家其实一直在挖着transformer架构上的富矿。

OpenAI虽然确实在做一些边界的探索,但它做的很多也是工程化的事情。某种意义上来讲的话,大家都是在混合地做事情。我们在工程能力上追赶上硅谷的一线水平,本身就是一件值得庆贺的事情,因为它就是在缩小差距的。

至于说我们什么时候能够做到真正去探索边界,目前来看可能还有一点难,但是我相信我们国家有大量的大模型公司,他们其实都会在这个事情上去做前沿的探索。有没有可能他们会在某些技术节点上冲出来?我觉得是有可能的,现在我是这么理解我们的双方身位的差距。

【08】“DeepSeek,改变了AI领域的投资逻辑?”

问:有人说,DeepSeek改变了AI的投资逻辑,大家以前比较看好算力等基础设施侧,但现在发现,像DeepSeek的初创企业,如果有创新,也非常有价值,你怎么看这一观点?

朱可夫:我们从逻辑上来讲的话,这个事情肯定是象征着技术上的大平权,对于链条上的企业我们都是有一定的影响。我们也会从上而下看整个链条里面的企业,各自在这个事情上是怎么反应和怎么受益的。

但是我们要强调的事情是,当前的AI浪潮是一个大的浪潮,所以某种意义上来讲的话,我们只是在一个上升的电梯里边在挑,你到底应该是在第12层电梯上,还是在第24层电梯上。所以结构的选择是一个方面,但是另一方面确实是我们要注重整体的β。

但是另一方面来讲,结构在这里面也很重要,毕竟12层和24层还是有差距,我们只能说不断地在里面调整身位去看待这件事情。我们相信DeepSeek也不是终点,它也会不断有新的事件出来,甚至有新的科技进步出来,我们只能根据每一次科技进步看方向是什么,然后稍微前瞻去判断一下未来里面最重要的玩家,不论是美国还是中国,他们在做什么样的动作,我们去看这些动作意味着什么,去看哪些方向可能是市场未来会选择的方向,这是我们的判断的姿势。

【09】“DeepSeek被过度神话了吗?”

问:目前关于DeepSeek,您觉得是不是会有过度神话的问题,它有哪些局限吗?

朱可夫:当前的模型演进,我们可以理解为有两个方向,这两个方向其实都是由OpenAI提出来的,一个是多模态的方向,多模态就是说它拥有视觉、听觉等各方面的能力。另外一方面是长思考的方向,本质上是让它思考的时间变长之后,它的理性能力会变得更高。

其实DeepSeek-R1主要是在后者的能力上会比较强,DeepSeek目前在春节前应该是发了一个多模态的模型,但是这个模型还比较小,在多模态的能力上还不是非常顶尖,这是我觉得市场会稍微过度估计DeepSeek的一部分。

【10】“AI背后浪潮般的机会,如何把握?”

问:关于这一次的AI浪潮,我们公司的基金经理和研究员如何去把握这个机会?

朱可夫:对于我们研究部来说的话,目前我们对于AI还是非常重视的。像我们组本身从软件、硬件、端侧、芯片侧,我们会有一个比较完整的跟踪图谱,我们也会定期复盘这个图谱的变化。

事实上我们其实在之前的报告里面也都讲到了未来技术进步的方向是什么,可能的突破会出现在什么地方。我们也会勾勒出当前市场最关心的是什么,我们会比较我们跟市场的不一样在哪个地方,从论据上来看未来的方向会更加倾向于我们的判断,还是会更加倾向于市场的判断,借此做出一些仓位上的调整。

后续来看的话,同样也是一个这样的思路,我们会紧盯着海外的一些巨头和国内的一些大公司来看待整个AI产业会往后面如何演进,同时也会比较这些公司的价值量在增长还是会缩减,从而做出投资决定。

对普通人而言,我觉得现在可能跟20年前、30年前不太一样了,现在因为尖端科技的创新都是大工程,而非单一学科的创新,我们研究员都要花费数以万计的小时去研究这些事情。

所以某种意义上来讲的话,我觉得普通投资者除非全身心在研究里面各类技术细节,否则其实是很难接触到这个事情的全貌。我们也是尝试用集团作战的方式,才能够去描摹这个图谱的一部分。我们要依据诸多的信息去做专业的判断,也是希望去定价AI时代里面的资产到底会如何变化。从这个角度来讲的话,我们希望投资者可能还是去相信优秀的机构投资者能够做出一些合理的判断。

风险提示:本文为投资者教育资料,仅用于为投资者提供丰富的、多角度的投资者教育素材,非营销材料,亦非对某只证券或证券市场所做的推荐、介绍或预测。本文内容不应被依赖视作预测、研究或投资建议,也不应该被视为购买、出售任何证券或采用任何投资策略的建议。投资须谨慎。本公司承诺以诚实信用、勤勉尽责的原则管理和运用基金财产,但不保证基金一定盈利,也不保证最低收益,投资者投资于本公司基金时应认真阅读相关基金合同、招募说明书等文件,根据自身的风险评级选择相应风险等级的基金产品。我国基金运作时间较短,不能反映股市发展的所有阶段。基金收益具有波动性,过往业绩并不预示其未来表现,基金管理人管理的其他基金的业绩也不构成基金业绩表现的保证,基金投资有风险,请审慎选择。

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-