首页 - 财经 - 行业新闻 - 正文

《五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论》

来源:财经报道网 2026-01-28 09:13:24

(原标题:《五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论》)

作者

五一视界(6651.HK)物理AI算法工程师侯涛博士

NVIDIA 创始人兼CEO 黄仁勋在刚刚召开的瑞士达沃斯世界经济论坛2026年会上提到,AI技术正在取得三大突破:从聊天演变到干活的智能体、开源模型降低大家进入AI的门槛、物理智能理解客观自然世界。其中,物理智能展现出AI开始理解蛋白质结构、化学分子、流体力学等自然科学规律,物理AI确实让行业很振奋,也让所有人意识到,这是AI的下一波浪潮。

但物理AI也是真的难,比起这个词的光环效应,其研发过程真的是有大量的苦活累活都要一一实践。最近很多人在探讨物理AI的世界模型和VLA,那我就从实际的研发体会出发,来聊聊这个话题。

为了加速AI理解、重建和生成物理世界,离不开世界模型这个AI工具,其属于利用 AI 训练 AI的新范畴。而在具身智能走向通用化的道路上,行业也正在形成一个共识:单纯依赖真实机器人的采集数据还是不够的,我们正在见证一种双模型协同的新范式崛起——VLA 模型(视觉—语言—动作模型)或VA 模型(视觉—动作模型,有人主张中间不需要语言层来进行逻辑推理)与世界模型的左右互搏与螺旋上升。简单来说:VLA 或 VA 担当负责感知、推理和行动的大脑,而世界模型充当负责推演和想象的场景模拟器。

1、VLA+世界模型,或许是解决物理AI能数据饥渴的最优解

这种左脚踩右脚的升级方式不仅可行,而且是目前解决物理AI中具身智能数据饥渴和物理安全性矛盾的最优解。真实的机器人数据采集较贵、较慢、有点危险。想让机器人学会处理杯子碎了的情况,不能真的摔碎一万个杯子来处理。而采用世界模型的解法,则是依赖它能生成无穷无尽的仿真数据。它可以低成本地生成各种摔杯子的情景,甚至生成现实中没见过的反事实场景(比如在月球重力环境下摔杯子),为 VLA 提供细节、情节丰富的训练场。斯坦福大学李飞飞教授认为目前的自然语言大模型大多是柏拉图洞穴里的囚徒,只懂语言的影子,不明白三维实体的空间关系。她提出空间智能是连接数字世界与物理世界的桥梁。在其愿景中,世界模型不仅仅只是生成视频,而是生成一个具备 3D 几何一致性、物理互动性的可操作世界。VLA 只有在这样的世界模型中训练,才能真正理解光线遮挡、重力和摩擦力等物理规律。

2、四个步骤,让VLA与世界模型协同进化

要将螺旋上升理念工程化落地,可以遵循以下路径:

第一阶段:冷启动。VLA 侧:先在VLM模型基础上,使用现有的真实机器人数据集训练一个基础版的 VLA,让它懂基本的移动、抓取。世界模型侧:使用海量互联网视频和驾驶/机器人第一视角视频、3DGS数据等进行预训练。这阶段让VLA模型学会简单物理规律——球松手会掉,水倒出会流。

第二阶段:接口对齐。常见的一种世界模型即文生视频模型只能听懂文字提示词,却可能听不懂具身智能行业的术语,比如关节电机转动4.5度。在此阶段,必须训练动作条件化的世界模型,将 VLA 输出的动作向量映射为世界模型的输入条件,使其生成机器人执行了动作之后世界将会变成什么样子的场景。

第三阶段:在仿真场景中训练。让VLA 在世界模型生成的仿真场景中不断尝试任务。循环过程为:VLA 看到第一帧 -> VLA 决策动作 -> 世界模型生成下一帧 -> VLA 看到第二帧 -> VLA 再决策-> 世界模型再继续生成下一帧......在此过程中,不需要机械臂磨损,VLA就能进行亿万次的强化学习试错。

第四阶段:虚实迁移与校准。将练好的 VLA 部署到真机,以形成闭环。先收集真机失败的案例(比如 VLA 对鸡蛋的软硬度不掌握,结果捏碎了),把这个真实的”动作—结果“数据回传给世界模型,告诉它:“你预测错了,真实世界物理情况是这样的”,以此来微调世界模型,修正其物理偏差。

3、如何解决生成式模型物理常识缺失的问题呢?

生成式模型爱“胡编乱造”,我们要警惕其一致性幻觉。在长时间序列的场景预测中,杯子可能会突然变大,或者穿透桌子。如果 VLA 在这种魔法世界里训练,它会学到错误的物理常识。解决对策:引入3D 几何、材质等约束。不要只生成 2D 像素,要结合 3DGS 等技术,确保生成的物体在三维空间中是守恒的。其实在51WORLD的日常训练中,我们主要将3DGS技术与3D几何图形引擎进行融合,形成3DGS混合仿真引擎,这样虚拟环境中的各类物理特性与真实环境就能保持一致了。不仅如此,我们还会在此基础上,泛化出各种各样的虚拟场景来帮助训练。

在实际生成的虚拟场景里,机器人会遇见判断难题,例如,怎么知道自己任务已经成功了?解决对策:训练一个配套的奖励模型,它像一个裁判,专门查看生成的场景,判断“杯子是否被成功放进了盘子”等案例,并给出分数反馈给 VLA。

世界模型当然也会遭遇推演速度瓶颈,如果其生成一个场景需要较长时间,那么VLA 的训练效率会极低。解决对策:采用潜一致性模型等加速技术,将世界模型的预测从像素级转移到特征级,只预测特征变化,不还原画面,速度可大幅提升。

4、关于数据共享与互补,需要注意这些点

世界模型的架构还在不断变化,但其训练需要输入真实数据、合成数据却是板上钉钉的事。这其中有些行业最佳实践值得注意。

共享视觉底座。VLA 和世界模型都需要看懂、理解图像。它们的视觉编码器可以共享权重或联合训练,这样能节省显存,并保证两者对世界的特征理解是同频的。

反事实数据生成。利用世界模型生成“如果当时做啥……也许就会怎样”的数据。VLA 成功把水倒进杯子,我们可以让世界模型生成:“如果当时手抖了一下,水洒出来的场景”。让 VLA 学习这些它从未经历过的失败案例,大幅度提升鲁棒性。比如,我们在仿真平台中,针对自车行驶过程遇见前车货物滑落的事件,就可以通过改变前车类型和货物种类的方式,提升数据复用性,减少实际道路测试成本和时间。

数据配比。真实数据用于校准真理,保证物理规律正确,合成数据用于“拓展多样性”(覆盖各种光照、背景、物体摆放等),建议发展初期按照 1:9 的比例混合使用这两种类型数据。

5、走向通用人工智能

有了数据,解决了幻觉,不断协同进化,那有人问,世界模型是通用人工智能的终点吗?显然不是。

世界模型在未来还需要直接生成 4D(3D 空间 + 时间)的交互式环境。VLA 将不再面对静态环境,而是身处一个完全三维的动态可交互环境中训练。例如,在51WORLD的“数字孪生工厂”中,利用物理AI 可在虚拟产线上及时调试机械臂、应对异常情况,再同步到实体工厂执行;给人形机器人构建动态的“虚拟训练场”,使其在部署前就已学会应对数千种突发状况。

完成快慢系统默契配合,即 VLA(直觉/系统1)处理毫秒级的实时反应(如走路保持平衡),世界模型(逻辑/系统2)则处理长程规划。当 VLA 遇到难题,它会呼叫世界模型来推演多种方案,并选择其中最优的一种去执行。这种快慢系统融合也正是自动驾驶系统进化的目标,比如特斯拉 FSD 在虚拟世界中反复演练极端场景,如暴雨中的紧急避让行人等,需依赖VLA的实时反应;而避开交通高峰寻找最佳路径则采用世界模型的长时间推理规划。

最终,VLA 和世界模型也许不再是两个分开的模型,它们将合并为一个整体。当输入观测时,这个大一统模型既能预测下一个动作,也能预测下一帧状态。其理论来源是预测动作和未来场景,本质上都是对世界因果律的建模。正如符合黄仁勋所说“AI 将从理解语言走向理解物理定律”,当然在马斯克设想的“万物自主智能体”中,从人形机器人到星际飞船,均能在虚拟世界中先行演化,再到现实世界中稳健执行。

总的说来,利用世界模型构建数字孪生训练场,结合 VLA 强大的泛化能力,我们将不再只依赖缓慢的物理世界数据采集,而是通过虚拟试错、现实执行的闭环,让具身智能以更快速度进化。未来,我们或许会看到:刚刚训练出的机器人管家、模拟火星环境中自主作业的工程车、以及在药物研发中通过物理 AI 推演蛋白质折叠与分子互作的“虚拟实验室”。

可以这么说,物理 AI 不仅是技术的突破,更是人类探索自然、改造世界的新引擎。非常期待这个新世界的早点到来。

本文来源:财经报道网

fund

APP下载
广告
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示新世界行业内竞争力的护城河较差,盈利能力较差,营收成长性良好,综合基本面各维度看,股价合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-