首页 - 财经 - 媒体广场 - 雪球 - 正文

Open AI发布o1新模型:强化学习和LLM的双飞轮启动!

来源:雪球 作者:彼得罗浮斯基 2024-09-13 10:09:26
关注证券之星官方微博:

(原标题:Open AI发布o1新模型:强化学习和LLM的双飞轮启动!)

open ai半夜丢出重磅升级,发布o1模型。Open ai认为新模型对于复杂推理任务来说,是一个重要的进展,代表了人工智能能力的新水平。将计数器重置为1,并将这一系列命名为openai o1。

AI行业正式进入一个全新的纪元,我认为这次升级最大的变化在于,通过LLM结合RL(强化学习),将模型能力提高到一个新的水平,本次升级并没有基于更新更好的算力(Nvidia B系列),整个模型参数体量想必也没有大的突破,目前业内普遍猜测更多是通过自我强化学习(self RL)的方式,大幅度提升模型推理能力,LLM领域的scaling law 正在发生变化:模型能力的提升,不再仅限于模型参数量的规模效应,通过自我强化学习,似乎让模型拥有了人类的慢思考能力,学会了识别和纠正自我,在尝试解答复杂问题过程中,会反复进行思考、拆解、理解、推理,得到更优质的答案。从openAI给出的数据和目前大家的测试来看,其性能有了质的飞跃。

AI经典三大范式分别是监督学习、非监督学习、强化学习,其中只有强化学习的假设是让AI进行自主探索、连续决策,这个学习方式最接近人类的学习方式,也符合我们想象中的AI agent应该具备的自主行动能力。LLM在利用现有知识上做到了现阶段的极致,本质是在预测下一个单词,而在探索新知识的能力上可以说是潜力巨大但基本为0,RL的引入就是为了让LLM能通过探索大幅度提升推理能力,挖掘新知识探索方面的巨大潜力。

从下面这张简单的流程图可以看到,当加入了RL后,LLM在“解题”的过程,会反复的进行推理,这个过程的深度将直接影响算力消耗的量级,大家在体验上直观地感受便是,问了一个复杂问题,o1模型“思考”了20s才开始输出答案,而过去的模型可能1s以内就开始输出,大模型的推理变得更慢、更贵、更智能。

scaling law还有效吗?

对于算力而言,无非是两方面,一方面是训练的算力需求,一方面是推理的算力需求。在去年的绝大部分时间,市场只关心训练需求,而其几乎与英伟达高度绑定,mallonx旗下的nvlink和ib无损网络大放异彩,市场也一度把mallonx的深度合作伙伴天孚通信炒出明显高于行业水平的估值溢价。

随着jensen在今年年初的nvidia财报中首次透露推理算力需求已经超过40%,市场逐渐开始关注度推理算力需求,过去普遍认为推理算力和应用高度相关,且不需要特别牛逼的gpu和互联网络,然而市场却忽略了最重要的点,那就是推理需求更为分散,主要集中在头部云厂商(规模效应,不多解释),云厂商组建的推理集群也均为超大型集群(也是规模效应),依旧带来了巨大的gpu和网络通信需求,只不过网络通信以以太网为主,这也是今年以来,中际旭创和新易盛这两家独立模块厂受益的主要逻辑。

随着o1大模型的发布,我们可以认为,随着self RL和LLM的结合,scaling law不仅有了广度,还有了深度,这里的深度指的是不仅可以通过模型参数量的提升来提高效果,还可以通过RL来进行慢思考,提高输出质量。

对于算力而言,不存在取代,而是双轮驱动,更强的单卡(scale up)和更大的组网(scale out)依旧是大模型的主旋律,与此同时强化学习的全新方向,带来的巨大推理算力需求提升,我们可以认为openAI本次升级是具备里程碑意义的,对于算力也是如此。

本人并非llm或rl方向专业人士,仅从可观信息进行部分推断论述,欢迎专业人士指导。本文若对您有帮助,还请关注、点赞,感谢!$中际旭创(SZ300308)$ $新易盛(SZ300502)$ $天孚通信(SZ300394)$

fund

微信
扫描二维码
关注
证券之星微信
APP下载
好投资评级:
好价格评级:
证券之星估值分析提示中际旭创盈利能力良好,未来营收成长性良好。综合基本面各维度看,股价合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-