(原标题:Sora横空出世,中美之间人工智能的差距在拉大?)
(本文首发于《紫金商业评论》,授权紫金财经发布,转载请注明来源)
继文本模型 ChatGPT、图像模型 Dall-E 大杀四方后,OpenAI继续祭出“大杀器”。
2月16日,OpenAI在其官网发布文生视频模型Sora。据介绍,该模型可以生成长达一分钟的视频,同时保持视觉品质并遵循用户提示。
虽然文本转为视频的产品早已面世,但是没有一个能够在画质精美程度、逼真程度等方面与Sora相媲美。OpenAI更是在其网站上直言:“Sora是能够理解和模拟现实世界的模型基础,我们相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。”
作为OpenAI首推的文本转视频模型,Sora以黑马之姿,占据AI领域话题中心。在Sora发布后,OpenAI的估值也迎来了大幅飙升。
Sora横空出世
Sora的问世,宣告了新一轮科技革命的到来。
Sora大模型的惊艳之处在于,仅仅通过一段文本指令,Sora就可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
就连特斯拉CEO马斯克也为此感到惊叹,他在社交媒体上转发网友的帖子时评论称:“gg humans”,意为“人类认赌服输”。
具体来看,Sora在多个方面重新定义了AI视频生成模型的标准:
首先,它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。
其次,用户不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。
此外,它是扩散模型,更是扩散+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。
虽然未经提前预热,但Sora很快成为热点话题,并引爆国内科技圈,360创始人周鸿祎、出门问问创始人李志飞等人纷纷下场讨论,发表看法。
周鸿祎表示,Sora对短视频行业有巨大的颠覆,但未必能那么快击败TikTok,更多是创作力工具。此外,他认为,中美两国的人工智能差距在拉大。
李志飞在微信朋友圈称:“LLM(大型语言模型)Chat GPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模了,到底什么是现实?”
Sora的问世,宣告了新一轮科技革命的到来。
OpenAI的又一次胜利
在Sora 发布前,大众对文生视频方案并不陌生,包括大众熟知的 Runway、Pika、Genmo 以及 Stable Video Diffusion 等等,也取得了不错的进展,但OpenAI依然实现了降维打击。
一直以来,AI视频生成被人看作是AI应用率先垂直落地的场景之一,正因为如此,几乎所有的 AI 视频生成公司都陷入了同质化竞争:过多关注更高画质、更高成功率、更低成本,而非更长时长的世界模型。Pika、Runway 做视频的时长都不超过4s范围,虽然可以做到画面足够优秀,但物体动态运动表现不佳。
但OpenAI对AI视频生成的探索更像是沿着另一条路线前进:OpenAI技术报告中透露,Sora能够深刻地理解运动中的物理世界,堪称为真正的“世界模型”,通过世界模型,Sora打通虚拟世界与现实世界的边界,实现真正AGI(通用人工智能)。
在业内人士看来,Sora是AGI(通用人工智能)实现的重要里程碑,Sora的出现将全球目光聚焦于视频生成领域,验证了视频为王的趋势,也进一步验证了无视频不传播的时代,“视频+大模型”的应用市场空间扩展。
市场预计,在最新一轮由风投公司 Thrive Capital 牵头融资中,OpenAI 的估值有望超过 800 亿美元(约合 5755 亿元人民币)。
作为对比,OpenAI 去年年初发布ChatGPT的时候,该公司的估值大约为 290 亿美元(约合 2086 亿元人民币),如今飙升了 275%。
对于Sora是否会一家独大,对相关AI视频生成模型或厂家形成冲击。业内人士认为,参考此前ChatGPT掀起的大语言模型热潮,在ChatGPT爆红后,全球大语言模型不仅没有出现一家独大的情况,反而随着Google、Meta、英伟达,以及百度、阿里、华为等公司的入场,呈现百花齐放态势。
此外,从实用性来看,风头更胜一筹的Sora只是展示了几十个精选作品,离落地还有相当的距离。