首页 - 财经 - 媒体广场 - 雪球 - 正文

Sora让AI睁开了双眼

来源:雪球 作者:田瑀研究笔记 2024-02-20 09:56:10
关注证券之星官方微博:

(原标题:Sora让AI睁开了双眼)

【Sora让AI睁开了双眼】

农历龙年伊始,OpenAI再向世界扔出了一枚炸弹——视频生成模型Sora。

AI生成视频的工具之前就有一些,包括大家可能更为熟悉的Runway、Pika Labs和Stable Video等。为何这次Sora还能称得上是炸弹呢?

除了生成的视频时间更长、清晰度更高等表观优势外,Sora超越了过去所有的AIGC,它生成了看起来与真实物理世界直觉基本相符的视频内容。

如果说生成天马行空的视频内容可以类比为人类孩童时那无穷无尽的想象力,那么生成与真实物理世界规则相符的视频内容,就像是AI睁开双眼、开始通过观察认知世界。

如果我们去看OpenAI官网的技术报告,他们将其称为世界模拟器。

从已经官宣的功能看,只需要输入文字,Sora便可生成一段长达60秒的高清视频。60秒的一镜到底十分连贯,人物、背景都达到了惊人的一致性,各种镜头随意切换,都保持了较高的稳定性,且基本符合人类对于物理世界的直观认知(偶有错误,但个人认为无伤大雅)。

有些评论说,Sora带有世界模型的特质,能够对真实的物理世界进行建模,能让机器像人类那样对世界产生全面而准确的认知。参考技术报告的原文,上述理解有些偏差,Sora构建视频的方式与传统的建模仍有本质差异,甚至某种意义上来说,Sora根本没有建模

翻阅OpenAI公布的技术报告,我个人理解主要介绍了两方面:

一是如何将不同类型的视觉数据转化为统一的格式,以便对生成模型进行大规模训练。

二是介绍了Sora的能力和局限性。据文献介绍,Sora首先是一个扩散模型,这与其他视频生成的模型基本原理相似,它能从看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。但OpenAI解决了一种数据编码方式,将更加广泛的通用视频数据进行转换,把视频和图像分解为较小的数据单元「patches」,每个「patches」相当于GPT中的一个「token」,相当于把视频数据翻译成了大模型可以“读懂”的数据流,用以训练模型产生合乎逻辑视频的能力。同时Sora还基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令来生成视频。

所以从原理上来说,Sora生产视频的方式并非通过建立基于物理模型的数字孪生世界、然后进行渲染,而是用类似人类观察世界的方式来学习生产内容。就像是人类画师通过记忆中看到的世界来创造出用户所需的画面。这其中的物理世界关系,更多来自于它之前看过的视频资料所蕴含的经验。

大家可以这样想象,一个小朋友在看过足够多次的苹果落地后,就能够猜出一个苹果在扔出之后会怎么落地的,但这一切并不基于对于牛顿力学的理解,而仅仅是观察世界的经验而已。所以我在文章的开头说,Sora根本就没建模,而是用另外一种方式,产出了极度逼真的视频,效率上的碾压也就是这样产生的。

其实Sora之所以有吸引力,是因为它让AI睁开了双眼,要知道如果AI可以通过视觉资料认识世界,其可使用的训练数据就变得近乎无穷,而不再局限于相对贫乏的文字数据。在神经网络模型这样一个黑箱模式下,更加丰富的视觉数据会给大模型带来什么变化,就像一个孩子的未来一样充满无限可能。

以上内容不作为投资建议,请大家不要冲动。@雪球基金 @今日话题 @中泰证券资管

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示中泰证券盈利能力一般,未来营收成长性良好。综合基本面各维度看,股价合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-