(原标题:挑战Transformer架构,岩芯数智要以小博大!造像“人”的大模型)
本文来源:时代周报 作者:郭美婷
“最近面试,我经常问候选人一个问题:如果有一天你要离开这个世界,你希望在墓志铭上写什么?”在近期接受时代周报等媒体采访中,岩芯数智CEO刘凡平提出这样一个问题。
刘凡平称,于多数人而言,这是一个需要思考超过30秒甚至更长时间的问题,而Transformer机制下的大模型会马上输出答案。
这是Transformer大模型与人类大脑工作机制的不同,人类回答输出的时间会根据问题的复杂程度变化,复杂问题求解时参与的神经元变多了,所以输出时间会变长。但现在的大模型在面对这个问题时,即使是很复杂的问题,它的输出速度是一样的。
本质来说,刘凡平认为大模型应当模拟人脑的方式来工作,而不应该是Transfomer架构大模型中那样无时间差别的输出。也是刘凡平和他的团队放弃Transformer架构,选择自研架构的一大原因。
岩芯数智CEO刘凡平。图源:受访企业供图
今年1月,岩山科技(002195.SZ)旗下公司岩芯数智推出了国内首个非Transformer架构的大模型Yan1.0。8个多月后,在近日举行的岩芯数智的开放日活动上,新升级的Yan1.3大模型发布。
相较于1月份首发的Yan1.0,岩芯数智称Yan1.3具备了多模态能力,可处理图文及语音等多模态信息,并实现了模型在更广泛设备端上的离线无损部署,普通电脑CPU上也能够流畅运行。而区别于当下多采用的云、边、端协同部署模式,Yan大模型能直接部署在设备端,且能够在较小的算力情况下实现较高的性能。
目前,Yan1.3在机器人、PC、手机、无人机等各类终端设备上均可落地。据刘凡平透露,目前岩芯数智已在机器人和AI PC产品上实现了交付。
不过,Yan架构是否更具优势,这一新架构能否得到广泛认可,以及在实际应用中的表现,仍需市场的进一步检验。
造“人”非造“神”
“他们不是造‘神’,而是造‘人’。”在岩芯数智开放日活动上,一位AI医疗行业的从业者王浩(化名)向时代周报记者形容。他这次来到活动,是为了考察适合应用于某些医疗场景中的大模型。而Yan大模型能够在本地离线部署的特性,正好切中了他们的保护病人隐私的需求。
端侧直接部署、离线可使用的多模态大模型,是岩芯数智留给参观者们最深的印象。
开放日现场。图源:受访企业供图
这背后源自刘凡平及其团队全自研的非Transformer架构的Yan架构。
如果将传统的大模型比作“造神”工程,试图创造出超越人类认知能力的单一超级智能体,依赖于单一的强大计算节点进行决策。那么刘凡平则期望大模型更像“人”,Yan模型更注重模拟人脑的工作机制。
刘凡平认为,群体智能是构建未来智能的关键。群体智能通过多个个体的协作和交互,形成的集体智慧和决策能力,能够超越个体的能力。而Yan架构大模型就等同于群体智能单元大模型。
与传统大模型的强化学习范式不同,群体智能更强调自主学习和个体间的协同作用。
强化学习依赖于大量的数据和实验来调整智能体的行为,以实现最大化奖励的目标,应用时成本较高,也较难在设备端直接部署。
自主学习的基石则是训推同步。刘凡平解释,训推同步可理解为模型的训练与推理同步进行,正如人一样,在聊天的时候可以通过语音输出推理,但同时也可以通过耳朵的听觉、眼睛的视觉作为输入进行实时学习。
在本地设备上,训推同步通过类脑激活机制实现。就如同人在处理事件时,并非大脑所有神经元都会参与,Yan大模型也只是选择部分参数参与,如100亿参数,而不是所有参数都会参与这个过程。如此,它的算力需求就会很低,训推就可以完全同步的进行,而且在输出时也能调整参数。
在岩芯数智的规划中,群体智能的实现包括四个阶段:创新型基础架构、多元化硬件生态、自适应智能进化、协同化群体智能。目前,Yan1.3已经可以在广泛的设备上部署和应用,进入到了多元化硬件生态,下一阶段是自主学习。据刘凡平透露,Yan2.0计划在明年春节前发布。
从性能来看,Yan1.3模型公开参数量是30亿(3B)参数,在一些性能测试中已经超越了参数量更大的Llama 3模型。
不过,在王浩看来,Yan目前大模型的性能可能还是不如部分投入大量数据和计算资源训练的大模型,因为智能涌现需要当模型的规模(包括计算量、模型参数或数据集大小)达到一定程度时,某些能力会才会突然出现拐点,性能显著提升。但Yan模型可能志不在此。
刘凡平也谈及团队并未训练千亿级模型。“我们的目标不是要创造一个拥有千亿参数的超级智能体,而是考虑从更小的模型开始,逐步探索智能的本质。如蚊子虽然神经元数量有限,但它们能够做出复杂的反应,躲避人类的拍打。而抹香鲸虽然拥有最多的神经元,表现出的智能却不与神经元数量成正比。”他打了个比喻。
探索商业化路径
今年被称为大模型的应用元年,大模型的价值往往在落地中得到检验。
在开放日现场,岩芯数智展出了Yan1.3在机器人、PC、手机、无人机等各类终端设备上的落地。
例如,飞龙无人机能在设备端实时处理声音、图像及文字等模态信息,无需经由云端处理判定再发回设备端执行;胖虎机器人可在离线的情况下理解模糊指令,展现“七步成诗”、“咏春拳法”等;在PC上的迅兔智能助手可以在离线模式下听懂语音指令、看懂图片并快速搜图等功能。
胖虎机器人。图源:受访企业供图
据工作人员介绍,公司正在与多家终端厂商洽谈或已达成合作。“客户厂商将需要搭载大模型的机器送过来,我们根据他们的需求进行模型的适配和调整,符合要求后机器就能批量生产了。”该工作人员表示。
刘凡平透露,目前岩芯数智已经给某文娱单位交付了导览机器人,该机器人可以与客人互动,并引导游览;此外岩芯数智还向一AIPC厂商交付了内嵌在电脑中的迅兔智能助手,能够自动转录语音并为会议做会议摘要等。但他也表示具体厂商和合作规模目前不方面透露。
从岩芯数智母公司岩山科技(002195.SZ)最新发布的财报来看,岩山科技的人工智能业务包括三大块:智能驾驶业务、类脑智能业务,以及岩芯数智负责的生成式 AI(AIGC)业务。2024年上半年,人工智能业务总收入被首次单独列出,为3438.3万元,占总收入的10.16%。而根据去年年报,人工智能及其他业务仅占总收入的1.54%。不过,财报并未分别说明三块人工智能业务各自的收益。
岩山科技的人工智能业务收入。图源:岩山科技财报
另外,岩山科技在半年报中写道,岩芯数智正在积极探索与不同终端设备厂商的合作机会,以实现该模型在多种下游设备中的应用,充分发挥端侧大模型的隐私和安全、低延时、可靠性、低成本等竞争优势。
“我们目前主要以‘Yan inside’的模式赋能不同设备。”刘凡平表示,岩芯数智除了正在合作的PC、无人机等领域,还关注玩具、陪伴机器人等终端,当前这类人机交互体验较差,也是他们可落地应用的场景。
刘凡平认为,大模型最可能在消费终端设备上实现爆发。目前手机和PC本身就有很大的存量,但更多的消费终端会打开这个局面。如今多数终端设备智能还是通过固定化程序运转,这种情况将通过AI在交互体验等方面产生改变。例如,搭载了Yan1.3的无人机可以通过人机对话,让无人机拍摄不同角度的照片。
此外,在硬件层面,刘凡平称,大部分厂商都是在高性能的GPU上运作,而Yan模型不仅能在高性能GPU上运行,还能够覆盖更宽的算力范围
据岩芯数智方面介绍,目前,经过对不同硬件的研究和大量调试,岩芯数智已经适配了英伟达、高通、联发科、英特尔、瑞芯微等平台。