(原标题:沈向洋:内容生成实现「一言胜千图」,创新与资本应有「新范式」)
"市场化是创新投资的最大主体。"
本文为IPO早知道原创
作者|苏打
“过去我们常说一图胜千言。而如今AI领域的内容生成,已经可以实现‘一言胜千图’。人类讲一句话,AI即可生成无数多张非常漂亮的照片,而且栩栩如生。”
11月22日,在深圳举行的2022 IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋坦言,自身研究计算机视觉很多年,但“三、五年前跟我讲大概能做出这样的结果我是不会相信的”。
他表示,人工智能最近的蓬勃发展,尤其是预训练大模型发展非常令人震撼,其整体的规模和速度都到了不可忽视的地步。“过去十年,新一代人工智能的浪潮,特别在深度学习的推动下整个进展非常快。其中,大数据和大算力是背后两大动力。精准的算法以及新的大模型出现,令人工智能发展到新高潮。”
在谈及创新与资本之间的“新范式”时,他认为,“市场化是最大的主体。但政府主导的研发有非常重要的引导作用、指向性作用。”
“趋于早期的基础创新,包括使命驱动型的创新,出资方主要是政府,当然也包括一些非盈利机构。而风险型投资是冒险者的游戏。但如果没有基础型创新和使命型创新的铺垫的话,风险型创新也是很困难的”。
从一图胜千言到一言胜千图
在太乙模型中输入“梦回江南”,便可以自动生成一张非常有中国特色的江南山水画。今年11月份刚刚同时发布纯中文和中英文版本的太乙Stable Diffusion,目前在Hugging face榜单的100多个Stable Diffusion已经排名第三,三个星期前的下载量已经突破10万。
“人工智能的内容生成,用一句话来概括,以前讲一图胜千言,今天是一言胜千图。在我看来,其背后是人工智能尤其是预训练大模型的发展规模和速度,都已经到我们不可忽视的地步。”
沈向洋认为,其背后有三个原因:巨大的数据量、庞大的算力、新的深度学习算法。“其中使用的Diffusion的模型可以在互联网上找到巨大量的图像、标注以及语言之间的数据队,这一结果代表了今天人工智能能够达到的高度和方向”。
以人工智能为代表的工具可以被应用到广泛的行业中,成为数字经济中数字生产力的底层。“大家可以想象,大公司、小公司、初创公司他们可以拿这个做什么。其中最重要的是可以帮助艺术家,帮助每个人有艺术创作冲动的时候做一些事情”。
曾有研究发现,达芬奇的画作很多,其实并非他一人所做,而是带了很多徒弟画出来的,但后人其实看不出来达芬奇的画与徒弟的画质量有何区别。
未来,人工智能就是每个人的“小徒弟”,而每个人都又机会成为“达芬奇”,从而真正提高数字生产力。
他坦言,直到今天,大数据、人工智能还是一个记忆和阐释的过程,尚未具备人的理解和认知的过程。比如,让人工智能去画出宇航员骑在马上可以实现,但换成马骑在宇航员的身上结果就不太对。
“但这样一些瑕疵并不妨碍技术和应用在不断迭代、不断进步。因为只有有反馈,我们才能闭环、才能有进步、才能有创新。今天的预训练大模型已经非常了不起”。
从分而治之到合而解之
沈向洋认为,当前人工智能的第二个技术趋势方向,是对新的研究方法变革,“我把它称为从分而治之到合而解之”。
中文计算机领域中重要的一个方法是divide and conquer,即解一个问题要从小到大,然后把小块拼起来,叫做divide and conquer。
“所以以前计算机科学研究隔行如隔山。十年前,学计算机视觉和学自然语言处理的人基本上老死不相往来,大家都不太清楚对方在做什么。但今天非常不一样,有了深度学习后,这些大模型把各个环节的人都集合起来,大家今天都是用大模型方法来做这件事”。
他非常认同“图像即外语”这一说法。把一张图想象成外语,同时也是一种语言。如此一来,所有的NLP里的方法论和成果,都可以应用在计算视觉上。几年前,谷歌研究院曾提出Vision Transformer,成为自然语言处理领域非常出色的成绩——研究员将图像切成1616的小图像,然后连在一起,如同一串字符,再把Transformer的方法用进去。
在此基础上,IDEA研究院将Vision Transformer体系用到计算机视觉里最重要一个问题——目标检测。
“一旦做到目标检测,计算机便可以进行目标跟踪、目标分割。未来可以有非常多行业应用的巨大机会,比如医疗检测、自动驾驶等。”
如今,IDEA相关研究团队将近几年的预训练大模型与全世界最先进的阶段性新理论与算法相连接,在国际排名榜上“霸榜”已有半年之久,检测出来的运动物体、静止物体都非常精准,未来下游产业将有非常广阔的应用前景。
“这件事情给我的震撼不仅仅是由原来的科研方法从小到大变成现在新的科学方法从大到小,它对人工智能、计算机领域的冲击,更大的冲击是这种研究的方法论、深度学习,它对科学研究的冲击会更加大。”沈向洋坦言。
他表示,未来将选择一些具体方向,做更多工具,帮助科学家们做更好的工作。目前,其已与清华大学联手开展一些新闻方面的工作,“相信很快会有一些非常好的成果向大家报告”。
从重视计算结果到重视过程
无论人工智能还是其他技术,其发展过程中都需要不断回看市场和社会需求的反馈。比如5G技术推出后,在应用上推动哪些新方向的进展。“市场的推动非常大,只要有了不起的应用,这些聪明的人、聪明的钱就会冲进去”。
沈向洋人认为,从冯诺依曼结构开始,计算就是一个工具,完成的事情是掌握工具的人。互联网出现后,APP被是掌握在互联网的平台,但平台是一个“黑盒子”,如果让它变得透明,可信可解释,就需要有一种新的计算体系来解决问题。
此前,业内大多用密码学的解法,比如联邦学习。但IDEA选择了一条不一样的技术路线——做硬件。
2021年,研究院曾推出过SPU(Secure Processing Unit)样机,今年已经与很多银行达成合作推广使用。
如今,AI领域的安全,很多公司都已经开始着手进行。比如英特尔在CPU中物理隔离出SGX。“但我们的看法是,应该拿出来专门做一个芯片。如果要做这件事情,安全体现在各个方面,有安全、可信、启动,开机时就要安全,安全运行的容器,运行的过程要安全,还要有一个安全虚拟的操作。”
沈向洋介绍到,这样一来,硬件可以具备好的功能,也可以与很多现有的软件解法进行结合,比如与联邦学习一起,与微众合作,可以将联邦学习的性能提高很多。
创新与资本的「新范式」
现场,沈向洋尝试解释创新与资本之间应该具备何种范式。
“要理解创新这件事情,要对创新资本这个范式做一些分析和描述。因为在实际运行中,我们看到的都是一些具体技术的突破、具体商业的成功、哪个公司又上市了等等。很多过程当中有很多不确定性的原则,它慢慢的融入到这个组织真正运营的经验里面,沉淀到组织的文化里面,我今天尝试着看能不能填补这样的空白。”
他认为,创新有四种类型:基础型创新、使命型创新、风险型创新、产品型创新。
在创新过程中,“要搞清楚谁是真正的参与者、谁是真正的贡献者”,以及这些参与者和贡献者是通过一个什么样的投资回报和资本的模型,能够联结在一起。资本的模型也有很多种,政府的、市场的、短期的、长期的、盈利导向型的、非盈利的。
“这些投资里面,市场化才是最大的主体。2020年,美国的研发预算,公司、市场的投入为75%,政府的投入仅占9.4%。但政府主导的研发虽然在绝对数量上远远低于市场主导的, 但它有个非常重要的引导作用、指向性作用。”
他表示,趋于早期的基础创新,包括使命驱动型的创新,出资方主要是政府,当然也包括一些非盈利机构。而风险型投资是冒险者的游戏。但如果没有基础型创新和使命型创新的铺垫的话,风险型创新也是很困难的。
现场,沈向洋重点介绍了产品创新型。绝大多数的前期平时几乎看不到声响,因为通常公司里面大多数R&D的钱都必须要保持现有产品的不断完善,以及满足用户的新需求。
“大公司如何创新,这是一个永恒的话题。最后公司不成功、不存在了,其他什么都没有了。要做百年老店,必须创新,而且只有自己颠覆自己,只有积极拥抱颠覆式创新,才能做这件事情。”沈向洋表示。