(原标题:“杭州六小龙”之一的群核科技亮相GTC大会,宣布开源空间理解模型)
3月19日,“杭州六小龙”之一群核科技亮相GTC2025全球大会,宣布开源空间理解模型SpatialLM。
SpatialLM是一个基于大语言模型的3D场景语义生成框架,它突破了传统大语言模型对物理世界几何与空间关系的理解局限,赋予机器类似人类的空间认知和解析能力,让机器人“看懂”物理世界。
这相当于为具身智能领域提供了一个基础的空间理解训练框架,企业可以针对特定场景对SpatialLM模型微调,降低具身智能训练门槛。
据悉,就像人类看一段视频能一眼看出视频中的3D场景结构一样,SpatialLM模型能够基于从视频中提取的点云数据,准确认知和理解其中的结构化场景信息。
目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。据群核科技相关技术负责人称,此次开源仅是开始,接下来SpatialLM模型将继续迭代如自然语言和场景交互等功能。
“我们希望打造一个从空间认知理解到空间行动交互闭环的具身智能训练平台。本次开源的SpatialLM空间理解模型旨在帮助具身智能机器人完成在空间认知理解上的基础训练。而群核科技去年发布的空间智能解决方案SpatialVerse,则希望进一步通过合成数据方案为机器人搭建最接近物理真实的‘数字道场’,实现机器人在仿真环境中的行动交互训练。”群核科技董事长黄晓煌在接受采访时表示。
其提到的群核空间智能平台SpatialVerse,是本次亮相GTC的另一个重头戏。它与SpatialLM模型之间“协同合作”,打通了“现实﹣虚拟﹣现实”的闭环路径,共同为具身智能架起一座数字仿真与物理现实之间的桥梁。
例如,SpatialLM模型通过从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景,而基于SpatialVerse的合成数据引擎,一个结构化场景又可泛化生成亿万级新场景。
这也意味着,现实世界将成为SpatialVerse“数字道场”的原料来源。使其数据更多样,同时还能缩小仿真与现实之间的“差距”。不仅如此,SpatialVerse已拥有海量室内场景认知深度学习数据,即这些参数化场景数据不仅物理正确,更具备可交互性。机器人可在这些仿真场景中,学习人类操作,如开关冰箱门、叠被子等。
“我相信全球很快会迎来具身智能机器人的爆发性发展,在具身智能背后,是算力、算法、工程和训练数据四个板块的协同进化,这需要全行业合力推动。群核科技希望通过空间模型和数据开源一起推动技术基座建设,为这个技术奇点的来临贡献一份力量。”黄晓煌提到。
据悉,在空间和具身智能训练上,目前群核科技已与硅谷头部科技企业等在内的一批国内外具身智能企业达成合作。
中金公司预测,随着成本的降低,未来中国人形机器人市场将较快增长。2030年出货量有望达到35万台,2024至2030年的复合增长率有望达到317%;市场规模也将迅速扩张,2030 年预计达581亿元,复合增长率259%,有望成为经济增长的重要驱动力。随着市场扩大,关键零部件的需求有望大增,以后对供应质量和稳定性要求会更高,产业协同发展是趋势。