首页 - 财经 - 公司新闻 - 正文

Hugging Face CSO谈机器人、开源模型:人形机器人未必是最终形态

来源:明亮公司 2025-09-11 21:11:29
关注证券之星官方微博:

(原标题:Hugging Face CSO谈机器人、开源模型:人形机器人未必是最终形态)


近日,美国红杉资本(Sequoia Capital)的播客Training Data对AI社区Hugging Face的联合创始人、首席科学官Thomas Wolf进行了一次访谈,着重讨论了机器人AI技术和物理人工智能(Physical AI)目前的现状,以及目前开源和闭源模型的争论。 


Wolf已经看到机器人AI模型已经接近于大语言模型的ChatGPT时刻,并在18个月前开始着手推动Hugging Face的机器人AI社区项目LeRobot,从AI软件领域进入到硬件领域,打造一个开源的机器人AI社区。


Wolf描述了目前机器人AI模型开发的一个“新群体“。这一群体并非机器人专家,而是来自AI算法领域,他们将机器人看作是AI算法的一个物理延伸。而很多创业者和极客购买一些价格几百美元的机器人,用来探索机器人应用开发的可能性,打磨他们在这一领域的创业想法。


Wolf也指出,目前机器人AI的主要瓶颈在于可供训练的数据不足。机器人AI模型训练的数据通常来自两类渠道:物理世界的训练行为数据和模拟数据。物理世界的数据面临的问题是缺乏“多样性”——机器人反复在同一环境下做训练,如果换了新的环境,机器人的表现可能就不理想;而在模拟数据方面,Wolf发现了一个新的“可能性”——随着视频生成模型越来越强大、无限接近于真实世界时,可以把视频模型生成的内容用来训练机器人AI模型。


Wolf还认为,人形机器人并不一定是机器人的最终形态,因为其面临“价格昂贵”和“社会接受度”两个方面的挑战。相比于此,他期待看到未来人形机器人和满足“长尾需求”的低成本机器人的共存。


Wolf在访谈也中特别提到了宇树科技,称其”一直在尽可能地降低人形机器人的成本”,不过,Wolf认为人形机器人想要低于1万美元、低于一辆汽车的价格,是一件非常困难的事。


以下为「明亮公司」编译的访谈正文(有删节):


Huang=Sonya Huang,红杉资本合伙人

Grady =Pat Grady,红杉资本合伙人

Wolf =Thomas Wolf,Hugging Face的联合创始人、首席科学家


Thomas Wolf(中)来源:Training Data账号


机器人AI的「GPT时刻」


Huang:Thomas,上次我们聊天时你提到,今天在机器人领域所处的时刻如同几年前在Transformer模型和大语言模型领域一样,你看到了什么?


Wolf:这始于两年前。我们是在18个月前开始在机器人领域展开工作。在那个时候,一些实验室取得了突破,就是斯坦福这样的实验室,这些团队开始展示能够打结、叠衣服、做饭、把东西在平底锅里抛起来再接住的机器人。所有这些事情在某种程度上,基本只用了很少的数据,但同时也展现了很好的前景,即能够利用我们看到的那些世界模型之类的东西,这些东西确实从互联网规模的数据中受益匪浅。所以所有这一切都指向了一个不远的未来,机器人将以一种新的方式工作。


在我看来,硬件其实早已准备就绪。但缺失的关键环节是能够适应、能够动态变化的软件。这就是为什么我们在18个多月前着手开始LeRobot项目。


我们下的巨大赌注是,能否在机器人领域建立一个庞大的社区?之前有一个由业余爱好者(hobbyists)或非常认真地为工厂流水线等制造机器人的人组成的小社区。但在我看来,那只是一个很小的垂直领域。你是否能将这个微小的垂直领域转变为一个完全水平化的领域?就像现在,每个软件开发者几乎都算是一个人工智能研究者。他们都想知道大语言模型是如何工作的,如何训练它们,这里有一个非常平滑的过渡,数以亿计的开发者变得越来越具备人工智能意识(AI-aware),我认为未来还有一个潜在的过渡,就是所有这些人也可能在某种程度上成为机器人专家(roboticist),只要你给他们工具。


Huang:跟我说说LeRobot是什么?


Wolf:当然,LeRobot是我们试图在机器人领域重现Transformer模型库成功的尝试。这个想法是拥有一个每个人都会使用的中央库,它会以一种非常简单、易于访问的方式,汇集所有最新的技术、人们用来高效训练机器人的最新算法、他们用来训练的数据集,并将其与执行器(actuators)即硬件部分连接起来。而LeRobot试图融合的正是这三个方面:策略模型、数据集和硬件。


Grady:Hugging Face在机器人领域的角色如何变化?对于在物理世界中进行构建的人来说,Hugging Face扮演的角色与它在数字世界中为人们扮演的角色是相同还是不同?


Wolf:我们的目标是扮演同样的角色,从非常高的层面来说,就是建立社区,把人们带入这个理念中,这可以是开源的。它不仅仅是你消费的东西,更是你可以调整、训练、控制、部署在任何你想要的地方的东西。实际上,“部署在任何你想要的地方”在机器人领域甚至更重要。


因为在未来机器人无处不在的世界里,你很可能希望很多模型能在本地运行。因为如果你的机器人失去了Wi-Fi连接之类然后撞到墙上,或者撞到你的孩子,比一个大语言模型出问题要更麻烦。所以机器人领域的安全问题,我认为是一个很好的理由,让你可能真的希望能够不依赖于远程API,而是让模型尽可能地靠近硬件。对于所有的安全问题和机器人技术的未来需求而言,我们的角色可能比在LLM领域更加重要。


Huang:LeRobot社区的规模?


Wolf:我其实应该查一下最新的数字,因为它正在指数级增长,目前大概六千到一万人。我们几个月前举办了一场全球黑客松,在六大洲有一百个活动地点。对我们来说,主要的指标是我们可以衡量Hub(注:即Hugging Face Hub,目前该平台上有约170万个模型、40万个数据集)数据集数量,我们看到了这种指数级增长,我认为这是一个非常好的迹象,表明我们走在正确的路线上。


目前可用的硬件仍然很像业余爱好者的硬件,比如3D打印的机械臂,到处都还连着电线。这就是为什么从今年夏天开始,我们想推出更大众市场的硬件,就是那种不仅能吸引那些习惯于到处插电线的黑客和技术爱好者,也能吸引所有人的东西,比如能吸引家庭用户看起来更精致的东西。


Huang:LeRobot社区中开发者的画像是怎样的?我很好奇这与传统上构建基于经典控制系统的人有何相同或不同之处。


Wolf:有几种类型的画像。第一种是传统的机器人专家。他们肯定想使用人工智能,所以他们中的许多人知道如何构建硬件,知道他们能用什么。但他们一直对软件栈的局限性感到沮丧,所有的最优控制模型等等都极大地限制了你能做的事情。所以所有这些人非常乐意地加入了这股潮流。我们看到了与Transformer模型领域相同的效应,即许多学术实验室开始使用LeRobot。因为它对所有学生来说是一个非常好的切入点。这个群体增长非常迅速。


第二个群体在我看来更有趣,他们是那些原本不搞机器人技术,但因为他们对人工智能感兴趣,而机器人技术看起来像是人工智能的物理呈现。他们就想进入机器人领域。这些人包括软件开发者,甚至只是对机器人技术感兴趣的人。


举个例子,很多投资者实际上购买了SO100机械臂,只是为了亲身体验,理解这个机器人到底是什么、它能做什么。因为它看起来如此平易近人,你拿到机械臂,软件只是一些Python代码,用一点点“氛围编程”(vibe coding),你就可以很容易地调整或控制它。我们看到有些人,他们可能不是纯粹的技术人员,但他们想了解机器人领域正在发生什么,他们就用LeRobot作为入门的开始。


SO100的升级版SO101机械臂(来源:Wolf的社交媒体)


Huang:所以你可以用“氛围编程”来控制机器人。


Wolf:是,这确实是我的目标,对于新的机器人Reachy Mini,我绝对希望这成为最简单的使用方式之一。我希望我的孩子们能够用“氛围编程”来编写机器人的行为。


Grady:你认为我们现在处于机器人市场整体成熟度的哪个阶段?我们什么时候会在机器人世界迎来一个“ChatGPT时刻”?


Wolf:我也在找,有时我也称之为“iPhone时刻”。在消费领域,第一个杀手级应用可能出现在大多数人都有“我想要一个机器人”想法的时刻。而在企业级市场,情况比较复杂,某些行业已经有很多机器人了,汽车制造业是最好的例子。


第二个方面是,目前机器人仍存在很多可靠性的的挑战,比如,它们是否足够可靠地部署在零售领域?


但我更感兴趣的第三部分实际上是娱乐和偏向教育的领域,在这些领域,关于“我要那个3000美元是因为它更可靠性”这类问题就不那么突出了,所以你可以用一个亲民的机器人,比如Reachy Mini,它的定价是300美元,这可会变成冲动消费。你买它,不确定它是否能用。但对于这个价格,我们想发现的是——在更偏向娱乐、趣味、通过物理互动学习人工智能,而不是仅仅在聊天机器人上编程——是否存在巨大的潜力。我认为这方面完全没有被探索过。


开源机器人Reachy Mini(来源:Hugging Face网站)


我过去有一些尝试,比如麻省理工学院媒体实验室(MIT Media Lab)的Jibo,它们的价格很高,可能超过一千美元。更重要的是,我认为那时的软件非常有限,所以你买一个机器人会很有趣,但你可能只有五到十种行为,一旦你全部试过,就结束了。


而Reachy Mini的目标是真正把它做成几乎像智能手机一样的东西。它自带一些行为,但因为你可以调整它,人们可以创造新的行为并分享,还可以接入所有新的视觉语言模型、语音模型、聊天模型,可能性几乎是无限的。


这就像打开了一扇门,基本上是在重建iPhone的应用商店,所以这是我非常兴奋的地方。这最后一部分仍然是一个很大的赌注,因为那里什么都还没有,没有真正的迹象来证明(可能会实现)。主要迹象就是所有这些社区的指数级增长,这让它看起来很有可能。


Huang:所以你把Reachy Mini看作是九十年代机器狗的重生,人们可以真正地玩耍和实验,在家里拥有机器人伴侣。


Wolf:这是一个很大的赌注。但昨天我其实在Tech Barbecue科技大会上讨论机器人技术时,有人作为投资人告诉我,你知道吗?已经有非常非常多的初创公司在我们的机器人基础上进行构建了。他们想创造一些东西,他们有一个关于可以自动化的手动任务(manual task)的想法,或者他们有一个关于可以在物理世界中做些什么的想法。然后他们就来用这个机器人,他们采用我们已经发布的基础构建模块,那只是一个机器人,一个我们设计得非常简单的SO100机械臂,基本上是最便宜的机械臂,价格在100美元。他们已经开始尝试围绕这个来创业或做一些事。


Reachy Mini在某种程度上也是为此设计的。它是一个非常简洁、简单的机器人,如果你想改造它,如果你觉得“嘿,我有一个关于这个的商业想法,但我需要一个机器人来与人互动”,你就可以拿这个来用,你就可以开始构建你的想法了。这就是Hugging Face的底层精神,你带来了所有这些平台,所有这些基础构建模块,让人们可以在上面创造出真正了不起的东西。所以,机器人技术对我们来说是同样的目标。


机器人AI的挑战与世界模型


Huang:我想谈谈数据作为瓶颈的问题。我认为语言和机器人技术之间的一大区别是,公共互联网上有数万亿的token可以用来训练大语言模型,但这种动态数据在机器人领域并不存在。实际上,我认为这正是Hugging Face在生态系统中可以扮演更有趣角色的地方,即在去中心化的数据集策划和创建方面。谈谈在LeRobot的数据集方面正在发生什么。


Wolf:这也超级有趣我认为,机器人领域有几个挑战,而主要的挑战在于数据,就是数据不够。有一些方法可以利用互联网上的视频作为训练数据,但这非常有限。


在某些方面,我们或许可以使用模型。但如果你想自动化一个任务,除了记录某人或者机器人可能正在执行这个任务之外,没有别的办法。


我认为这里有一个可能性和一个局限性。主要的局限性是,你可以自己记录大量的任务,但通常你会非常缺乏多样性。你基本上只能训练一个机器人在你的房间里,在一切看起来都一样的情况下,把某件事做得很好。但一旦你把它放到隔壁房间,那里的墙可能是绿色的而不是红色的,机器人就很难泛化了。这是主要的局限性。


所以我们对Hub的想法是,每个人都可以记录数据集,如果我们能设法激励他们分享数据,那么我们或许可以建立一个非常多样化的数据集。一个多地点的数据集,它会极其多样化。


此外,希望它也能非常大。那是一个长期目标,我们希望这能有所帮助。但我们尝试做的另一个更直接的事情是,也直接与社区的参与者合作。我们发布了几个数据集,也想帮助他们发布数据集。


我们认为在机器人领域,一个很好的方面是很多人最终都想卖硬件,所以他们实际上有能力,甚至比大语言模型领域更能负担得起将一部分软件作为开源分享——如果这能推动整个领域的发展的话。毕竟最终那并不是他们直接卖的东西,所以这正是我试图说服许多机器人公司去做的事情,而且令人惊讶的是他们中的许多人似乎对此很感兴趣。


Huang:非常有趣。你发推文说“世界模型日”,世界模型开源领域正在发生什么?这对机器人领域的发展有何影响?


Grady:我可以接着问一下,世界模型现在有什么“时机已到”的诱因吗?因为感觉它们最近才开始涌现。


Wolf:有趣的是,你感觉就像是几个团队实际上已经独立在这方面工作了几个月,然后恰好现在发布了,因为当你和他们所有人交谈时,他们并没互相抄袭。


我猜其中一个原因是真正好的图像生成技术的出现,并且最终理解了如何修复“六指”之类的问题,基本上就是为图像获得一个更可靠、更连贯的世界模型。这也很自然地被移植到了视频上,所以我们现在也看到了一些非常酷的视频模型。


我在这个领域交谈过的很多创始人都说,他们也得益于开源视频模型生成或开源图像生成的进步,他们基本上拿过来这些视频生成模型然后对它们进行微调,然后训练它们能够对某些输入做出反应,这也是我们在机器人领域做的事情。


这两件事之间有很多共同点,而且似乎效果相当好。所以你开始拥有这种在我看来非常有趣、全新的体验,你实际上有了一个可控的影片,它既是照片般逼真的,又能对你输入的动作做出非常连贯的反应。


无论是四处移动,还是要求它添加一些东西,比如添加一个骑手、一座城堡、一辆行驶的汽车,你都会看到这个东西反应得非常好。我认为这里有很多潜在的应用,显然,除了娱乐之外,实际上是一些可能全新的娱乐形式,一些我们从未见过的东西,这可能是第一次创造出一种真正新的虚拟娱乐形式。


但也有很多在商业中的应用,以及如何能互动的东西,而其中一个应用就是为机器人生成更多数据。


生成数据只有两种方式,一种是在现实世界中记录,我认为这仍然非常有趣,另一种是模拟它。


令人惊讶的是,在模拟方面,我们并没有看到很多没有看到真正的突破,所以也许这是我相当长一段时间以来在模拟生成数据方面看到的第一个突破。


Huang:是的,我很高兴看到一些进展,甚至像DeepMind用Genie所做的那样,训练他们的具身机器人,你相信人形机器人是最终形态吗?


Wolf:这方面争论不休。可以肯定的是,我现在对尝试其他形态更感兴趣。


人形机器人的主要问题,我认为有两个:第一个是,它总是相当昂贵,仅仅因为你需要大量的马达,而机器人的所有价格都在于执行器,那总是占价格标签的70%左右。所以当你有60个执行器时,你的账单就很长了。所以很难把人形机器人的价格降到一辆汽车以下。而我认为一辆车的价格已经是一个相当高的要求了,如果你买一个和汽车价格一样的东西,你确实期望从中获得很多价值,对吧?所以这就是为什么我们正在探索更小、更小的机器人,比如只有一个手臂或者只有一个会动的头之类的东西。有可能我们将来能获得更便宜的人形机器人,就一直在尝试,他们一直在努力降低价格,也有很多公司以此为目标。


但我认为,要把它降到一万美元以下会非常困难。当然,人形机器人的好处在于,一旦你解决了人形机器人的问题,你就能同时解决很多任务,所以如果你解决了人形机器人的问题,你可以做所有人类能做的事情,这非常令人兴奋。


但核心问题是,你真的需要解决人形机器人的问题吗?就我而言,我更希望看到一个由各种不同形态组成的“星系”,我也觉得其中一些比人形机器人可爱得多。


而另一方面,我认为对于社会接受度而言,你要直接面对那种“恐怖谷”,它看起来很像你,动作也很像你。所以我曾认为这对社会接受度会是一个很大的限制。但老实说,我已经见过很多Unitree(宇树科技)的机器人了,我不知道你怎么样,但在某个时候你就开始忽略它们了。所以我也更有信心,也许我们对此过于担心了,机器人领域可能也是如此。也许在某个时候,一旦我们开始看到一些机器人,人们就会非常非常容易地接受它们。


Huang:好的,所以我们将看到人形机器人的场景。


Wolf:我的意思是,我们的目标是让Reachy Mini和我们的小型机器人运行得非常好,以至于在某个时候,我们都会回过头来,以我们已经做过的方式,逐步地将社区带到我们身边,一起制造人形机器人。


Huang:如果你想象十年后的世界,你认为我们身边会有多少机器人?比如80%是人形机器人,然后20%是这种硬件和场景多样性的长尾(机器人)?


Wolf:是的,我希望看到第二种选择,因为我认为那是一个我们的生活中有更多机器人的选择。我真的不太希望看到的是一个未来是机器人变成一种精英化的产品——如果你有钱,你家里就有三台机器人,如果你没钱,你就没有。Hugging Face也一直关注广大的社区,所以我们关心这一点。


因此,我更兴奋地看到许多不同形态的机器人,它们对很多人来说都是可以负担得起的。其中一些更便宜,一些比那单一的人形机器人更昂贵,所以我会说,在Hugging Face,我们试图实现的未来是第一种。我也认为这更有趣,因为在某种程度上,你也在限制自己,就像大语言模型一样。如果你只是想让它们模仿人类,那是一回事,但如果你试着想,也许它们能做一些人类做不到的事情,那在某种程度上也更有趣。


Huang:你认为我们正在走向一个拥有大型基础模型的世界吗?这些模型可以做任何事,然后通过几个提示就能迅速适应任何新领域?还是你认为你社区里的开发者会从一个小的基础模型开始,然后做大量的自有数据收集和定制化来适应他们的领域?


Wolf:我认为我们会越来越多地看到两者并存。比如说,如果我们看Hugging Face上的下载量,我们既看到非常大的、最先进的模型被下载,它们通常太大而无法在本地笔记本电脑上运行。但我们也看到一些最受欢迎的模型实际上尺寸正好,可以在笔记本电脑上快速运行。所以我们看到了这两种模式,我认为,随着领域的成熟,我们将越来越多地看到这一点,就是你不是非此即彼。


只是根据你的需要,你可能会在本地使用,也可能不会。我认为带有路由器的GPT-5就是一个很好的例子。也许最大的模型、最长的推理链并不是所有问题的答案,你实际上需要聪明地选择你想要的那个。所以它可以在一个路由器后面,但也可以就在本地。你可以在这里运行一些模型。它们可能非常有用,而且我们越来越懂得如何训练出真正有用的模型。但是当你需要一些更复杂的东西,当你需要很长时间的反思时,你就会转向更大的模型。


开源与闭源之争:五年前难以想象中国公司会是开源拥护者


Grady:过去几年非常流行的一个叙事是开源与闭源,你认为哪个会赢?而就在最近几周,OpenAI的模型现在也出现在Hugging Face上了。所以我很好奇这该如何解读,它可能暗示了开源与闭源的未来,或者它们将如何协同工作。


Wolf:我们非常高兴欢迎他们回来,他们曾经在这。我做的第一个模型,以及我们从一家游戏公司转型为开源平台的原因,就是GPT-1。很多人都不记得了,但它非常有趣,因为它主要是在小说和言情小说上训练的。所以当你把两个角色放进去让它续写时,他们总会以某种方式坠入爱河,我还有点怀念那个版本。然后,然后谷歌采纳了这个想法,并在维基百科上进行了训练,这增加了很多世界知识,然后将其扩展到GPT等等。但在那个时候,他们非常非常支持开源。我认为开源,就像在软件领域一样,我认为两种解决方案只会共存,而有公司同时做开源和闭源,谷歌在相当长一段时间里就是一个例子,有Gemma系列和Gemini系列。


Hugging Face“本周流行中可以看到不少中国的开源模型(来源:Hugging Face网站)


还有一些有趣的时刻,我有时听说某个Gemma模型实际上非常好,以至于比闭源模型还要好。所以他们不得不去闭源它。所以目前这两者之间的界限可以说相当模糊。还有一些来挑战的新玩家,主要是在中国,但我想我们也会开始在美国看到一些新的基础模型团队。我认为我们可能也会在美国看到一些挑战,我认为界限将保持相当模糊。而且两种模式都会存在,性能上只有微小的差异。


我认为,目前的主要原因,老实说,在此时此刻,我认为我们并不完全处于一个人工智能的“成本节约”时代。


对于很多参与者来说,转向开源因为可以节省成本,但这并不是他们最重要的事情。所以他们现在转向开源通常是因为他们关心数据隐私,他们希望能够调整他们拥有的模型,也许有一个新想法,想去实现。


我所期望的是,随着我们进入一个更成熟的市场,那么成本以及能否在更快的硬件或其他类型的硬件上运行,然后。能够拥有模型和模型运行的整个技术栈,将变得越来越重要。


所以我认为,就像在软件领域一样,从长远来看,开源对于许多应用、许多用途来说是一种制胜的解决方案。但我们仍然处于一个平衡的阶段。


Huang:随着这些模型不断挑战前沿,并且出现了闭源模型,Hugging Face在大语言模型生态系统中的角色是如何演变的?我记得以前你可以在Hugging Face上下载小型的BERT模型并在本地运行,现在我们正走向大到无法在消费级硬件上运行的模型,你的业务是如何演变的?你如何看待Hugging Face角色的演变?


Wolf:令人惊讶的是,我去年年底做统计时发现,BERT模型仍然被大量使用。开源一个令人惊讶的有趣方面是它的韧性,就是一旦你有了一个在预测中确实有效的东西,你可能不想被迫转向新的GPT……开源对我们来说长期的兴趣也是提供非常稳定的基础,就像你构建了某样东西,你知道它会一直存在,你可以把它作为一个非常稳定的基础。总的来说,我认为在社区中,我们的角色已经从可能自己推动很多事情、推动我们的库、推动我们的早期产品,逐渐转变为更多地赋能整个社区,所以我们现在与社区的许多参与者合作。……


Huang:你提到最近中国有很多开源模型,这是为什么?西方开放模型的发展状况如何?


Wolf:是的,这是我认为过去两年发生的最令人惊讶的事情——中国会成为开源的拥护者,谁能在2020年预测到呢?


我两周前去拜访了他们,试图在实地更好地了解情况。事情就是这样——这(中国市场)是一个内部竞争非常非常激烈的市场。那里有很多非常优秀的团队,这在某种程度上让我想起了硅谷。人们工作极其努力。


令人惊讶的是,他们竞争的一个方面体现在开源方面,是希望成为最开放的模型提供者,所以,他们为自己的开源而感到非常自豪。其中一些公司曾经尝试转向闭源,然后马上就体验到闭源带来负面影响——我想主要是在招聘上,人们不想再去那里工作了,所以他们又重回开源。所以现在这(开源的思维)已经相当根深蒂固了。所以我会希望继续下去,也希望有更多的团队加入,因为我看到了很多……在 GPT-5 的发布会上,你会看到其中一些成员来自清华大学,对吧?我们知道这里的团队,也有一部分是中国成员。所以他们有非常非常强大的人才,他们已经在思考训练出最好的模型。


有趣的是,我看到西方最近又回到了开源。OpenAI决定回来了,现在我们只等Anthropic也许会开源他们的第一个模型,所以我想是时候试着请他们参与进来了。我会说,现在的情况对于开源来说是相当不错的,但就像《星球大战》里的绝地武士,(开源)从来都不是稳赢。我们必须继续推动,我们必须继续高举开源的旗帜。


Grady:是什么推动了西方开源的复兴?


Wolf:当你在某种程度上没有什么可失去的时候,开源总是一个好的解决方案。当你是一个新团队时,比如你创建了一家新公司,你想迅速崛起——这就是Mistral的秘诀。


对中国公司来说,几乎没有人会使用中国的API,所以他们无论如何都不会在西方卖API。所以在某种程度上,他们通过开源他们的模型,在西方市场没有什么可失去的。


所以我认为有这个因素在起作用。其结果是,当没有人开源时,就像一个市场,有人就有兴趣来填补这个空缺,说我们将成为开源玩家。所以Meta就是那个开源玩家,当大家都停止开源的时候。我觉得总会有这样的事情,当一些人停止开源时。那么实际上就出现了一个成为新的顶级开源参与者的空缺,然后就会有人想填补这个空白。


Huang:你提到西方公司不会使用中国的模型或者中国的API,那么,你是说西方公司实际上愿意还是不愿意使用中国的开源模型?


Wolf:我认为更多该关注的是,人们都希望有一种更好的方式来理解模型的安全性。以及,很多公司一直在问的问题,就是如何保证这个模型总是表现良好——我们知道这真的很难,即使是GPT,有时你问草莓的单词 (strawberry)里有多少个R,它就是表现得很糟糕,这是一个普遍需要尽快解决的问题,并且有几个团队肯定在为此努力。


AI for Science:当下大模型仍无法提出对的问题


Grady:谈谈开放科学(Open Science)。


Wolf:我们像人类一样构建大语言模型,但如果一个AI模型能看到红外线、能看到我们看不到的某些辐射,这就是人类做不到的事情,所以它已经是超人类的了。而对于科学来说,这实际上也很有趣——很多用于科学的AI模型在某种程度上已经是超人类的了,它们要么可以看到不同的模态,要么预测一些人类根本无法企及的东西。我认为这是一个很好的基础,可以让我们跳出人类能做什么的局限去思考。


Grady:你对开放科学充满热情已经有一段时间了。什么是开放科学?Hugging Face在其中扮演什么角色?你对它的热情来自哪里?


Wolf:开始于很久以前。所以在我成为律师之前,我曾是一名物理学研究员,我研究超导材料。令人惊讶的是,在超导材料领域,很多伟大的研究都是苏联时期的苏联人完成的,而这些苏联研究人员发明理论的方式与西方世界截然不同,所以他们有一些非常棒的想法和一些非常有趣的东西,但我必须找到这些理论是怎么被发明的,在前苏联的信件中追踪它们,其中一些信件还是俄语的。所以从那时起,我感到获取知识是困难的,如果我能让它变得更容易,那就能解锁很多非常酷的东西。如果我能找到那个方程来自哪里,并真正能够阅读那篇文章,那就太牛了。


所以当我进入计算机科学领域时,我发现了arXiv、我发现了开源。我当时觉得这太酷了,所有东西基本上都是免费的。每个人都在分享,且文献都是英语的,基本上所有人都能读。我对此非常兴奋——直到我开始尝试复现一篇DeepMind的论文。


我发现这里有一个限制,因为人们只发表他们想发表的东西,但他们并不会告诉你所有的诀窍。所以当你尝试复现时,你发现它根本行不通。所以对我来说,开放科学就是这种延伸,给人们开源模型让他们可以在上面构建东西是很好的。授人以渔就是我们想做的。从长远来看,这将成为一种基础技术,基本上应该像物理学一样,是每个人都可以通过读书来学习的东西,比如你今天想学习广义相对论,你可以读一本书,你就能了解它。


人工智能,或者说训练一个智能物体或人造物的窍门,也应该成为每个人都应该知道的东西,这是一个长期的事情。短期的目标是,如果我们教人们如何训练出色的模型,那么他们就会把出色的模型带到Hub上,然后我们就有更多出色的内容可以提供。所以这也有点像提供内容,如果你提供出色的模型,就很好。我们为此写了非常长的博客文章,其中一些甚至变成了书,关于如何在一千个GPU上进行训练,如何平衡负载,以及如何做所有这些并行化的事情。我们写的另一篇很长的博客文章是关于如何制作一个高质量的数据集。


所以我们制作了一个叫做Fine Web的数据集来免费训练模型,它使用了许多最近的模型,比如Qwen模型。然后我们还写了我们是如何构建这个数据集的,我们是如何过滤它的,当你想构建好的数据来训练模型时,理解什么是重要的。所有这些我认为都是相辅相成的,这基本上就是把更好、更好的开源AI模型带到Hugging Face的一种方式。


Huang:我想回到你关于物理学和超导的观点,很多通用人工智能(AGI)实验室相信,AI颠覆科学其实并不遥远。已经有一些令人兴奋的发现了,我认为到目前为止在数学领域已经有了令人兴奋的证据,然后可能会扩展到物理学、材料科学,你认为我们会看到这些模型在科学发现上带来一个拐点吗?你认为开源在推动这一进程中将扮演什么角色?


Wolf:这里有一些炒作是好事,能驱动别人去做事情。但有时我们高估了正在发生的事情,数学就是一个很好的例子。曾经有这样的想法,AI正在为一些数学理论做出新的证明,这就像在发明新的科学。我认为作为一名科学家,这真的是看待科学的错误方式。原因是我曾是一个糟糕的科学家,我可以谈谈这个。我曾是一个非常好的学生。所以当你给我一个问题时,我总是很确定我能找到证明,我能找到答案。但是我知道这个问题有解,所以我只需要填补空白,然后抓住一些我知道的东西,把它们组合在一起。


当我成为一名研究员时,我发现我是一个相当糟糕的研究员,因为我基本上无法提出正确的问题。所以如果有人问我说,你能证明这个定理吗?我能做到。但如果有人问,现在在数学领域探索什么是有趣的?我基本上毫无头绪。


在科学领域,如果你想做出重大的突破,你需要做的主要事情是,你需要提出正确的问题。你需要找到一种方法,提出一个能开启一个全新研究领域的问题。比如,诺贝尔奖通常是颁给一个开启了全新研究领域的人,因为这个人只是提出了正确的问题。比如,也许光速应该是恒定的,让我们来探索这意味着什么,这意味着我们实际上可以创造出广义相对论,然后我们可以从中推导出黑洞。


我认为大语言模型现在这种有品味地提出正确问题的能力上表现非常糟糕。但这并不意味着我们不能用它们做一些非常酷的事情,但我现在看待它们的方式更像是非常有用的助手和加速器。我希望看到的是一个AI会说,“嘿,我有一个关于如何超越光速的想法”,但为此你不能只写下如何超越光速的答案。


你必须提出正确的问题,我们应该对今天的理论做出什么改变?我们今天应该做什么?我们应该重新考虑什么,才能发明出一些突破性的东西?这就是我的观点。


Grady:你认为现在AI世界中有趣的问题是什么?或者说,人们应该问但没问的问题是什么?


Wolf:这也是一个问题。它与我们经常谈论的一个东西有关——这种讨好(sycophantic)、即AI模型总是同意你的倾向。我认为,一个好的研究员实际上是不会认同很多人(的观点)。我以前的教授是一位诺贝尔奖得主,他表达观点的方式非常不友好,但我认为这是其中的一部分,你必须非常有主见。所以,找到一种方式推动这些模型有更强的观点,或者在他们的观点中有品味,对于科学来说将是关键。


当然,这会基于深度学习和大语言模型,它可能涉及其他训练它们的方式、思考它们的方式。有几个人在朝着这个方向探索,但探索的人并不多。


Huang:当你展望十年后的世界时,Hugging Face在其中扮演什么角色?你认为你的社区中有多少人在用大语言模型和机器人构建?以十年的时间跨度来思考很难,但你认为十年后的世界会是什么样子?


Wolf:十年会非常非常不同。我希望看到的是,在十年后一个世界里基本上每个人都觉得他们可以用AI来构建,而不仅仅是消费AI。但他们觉得自己可以成为这件事的参与者,有点像——过去有很多为我们生成和创作的媒体,然后我们进入了现在的时代,每个人实际上都能够创作、都是媒体。


我希望AI也是一样,就是一个像软件开发者社区一样非常庞大的社区,每个人都可以用AI创造东西,他们觉得这只是他们工具箱里的另一个工具。他们可以写代码,但他们也可以训练一个模型,也可以调整模型。


作者:MD

出品:明亮公司

fund

微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示机器人行业内竞争力的护城河良好,盈利能力一般,营收成长性较差,综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-