首页 - 财经 - 滚动新闻 - 正文

震撼!无需依赖语言模型,豆包打破AI视觉次元壁

来源:21世纪经济报道 媒体 2025-02-11 20:03:28
关注证券之星官方微博:

(原标题:震撼!无需依赖语言模型,豆包打破AI视觉次元壁)

21世纪经济报道记者雷晨 北京报道

继DeepSeek大模型之后,国产大模型再度实现突破。

2月10日,字节跳动豆包大模型团队公众号发文宣布,与北京交通大学、中国科学技术大学联合提出的视频生成实验模型“VideoWorld”,在业界首次实现无需依赖语言模型,即可认知世界。该项目代码与模型已开源。

据介绍,VideoWorld仅通过“视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。并且,在仅300M参数量下,VideoWorld已取得可观的模型表现。

近年来,字节跳动持续加码多模态技术研发,凭借其在视频、图像和文本等多领域的深度融合,为AI应用场景的拓展注入新动能。

多位机构分析师认为,随着技术门槛的降低和生态合作的深化,AI应用有望加速繁荣,赋能千行百业,开启智能化新时代。

用“眼”学习的大模型

VideoWorld的独特之处在于,它仅凭借“视觉信息”,也就是通过浏览大量的视频数据,就能让机器掌握推理、规划和决策等复杂能力。

在人工智能领域,以往的许多模型往往依赖语言模型或者标签数据来学习知识,例如Sora、DALL-E、Midjourney等,而VideoWorld打破了这一传统模式。

在模型构建方面,研发团队构建了视频围棋对战和视频机器人模拟操控两个实验环境。在训练过程中,VideoWorld模型通过“观看”包含大量视频演示数据的离线数据集来进行学习。其架构采用的是朴素自回归模型,主要包含VQ-VAE编码器—解码器和自回归Transformer架构。这种架构设计使得模型能够有效地处理视频数据中的时空信息,为后续的推理和决策提供基础。

然而,在研究初期,团队遇到了一个难题,即视频序列知识挖掘效率低于文本形式。为了解决这一问题,团队引入了潜在动态模型(LDM),该模型由以德国慕尼黑大学的研究团队为首的多个研究团队共同构建。LDM能够将帧间视觉变化压缩为紧凑的潜在编码,这不仅提升了知识挖掘效率,还能保留丰富的视觉信息,让VideoWorld可以捕捉视觉序列中的长期依赖关系,从而在长期推理和规划方面表现得更加出色。

据豆包大模型团队介绍,在不依赖任何强化学习搜索或奖励函数机制的前提下,VideoWorld达到了专业5段9x9围棋水平。

此外,VideoWorld还能够在多种环境中执行机器人任务。在机器人模拟操控实验环境中,它可以根据“观看”到的视频数据,学习如何控制机器人完成各种任务,如移动、抓取物品等。

“VideoWorld通过仅依赖‘视觉信息’的方式,让机器能够掌握推理、规划和决策等复杂能力,这无疑是人工智能技术在视觉学习领域的一次重要革新。”盘古智库高级研究员江瀚对记者表示。

不过,尽管VideoWorld在围棋和模拟机器人操控场景中表现卓越,但豆包大模型团队同时指出,在真实世界的应用中,它还面临高质量视频生成和多环境泛化等挑战。

AI应用生态加速繁荣

近年来,字节跳动在多模态技术研发上持续加大投入,从2023年2月探索大模型,到8月开启“豆包”公测,再到2024年5月豆包正式对外服务并掀起大模型价格战,豆包大模型在全球范围内吸引了大量用户,在2024年11月的全球月活跃排行榜上位列第二。

2月7日,字节跳动旗下即梦AI发布新功能上线预告片,展示了全新的多模态视频生成模型OmniHuman,仅需输入一张图片和一段音频,就能生成生动的AI视频。而VideoWorld的发布,进一步拓展了字节跳动在多模态领域的技术版图。

豆包大模型团队还表示,VideoWorld项目代码与模型已开源。

开源不仅是代码和模型的共享,更意味着构建一个创新生态。以往,开发大模型需要巨额资金投入、强大的算力支撑以及深厚的技术积累,这使得许多中小开发者和研究团队难以涉足。

而开源大模型的出现,打破了这一壁垒,降低了技术门槛,让更多的创新力量得以参与到大模型的开发与应用中。

此前,在OpenAI毅然选择闭源策略后,众多大模型厂商纷纷跟风,闭源仿佛成了新的行业共识。而近期横空出世的DeepSeek却反其道而行之,将高性价比的R1模型开源。

紧随其后,VideoWorld也选择开源,折射出中国AI产业从单一技术突破向应用生态构建的战略转向。

可见,产业格局的变革已悄然启动。

江瀚告诉记者,此次VideoWorld的推出将推动相关产业的快速发展。“例如,在自动驾驶、智能制造、智能安防等领域,VideoWorld的应用将极大地提升系统的智能化水平,推动相关产业的快速发展。”他表示。

fund

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示机器人盈利能力一般,未来营收成长性较差。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-