(原标题:Kimi爆火出圈,中文AI大模型应用进入长文本时代)
出品|派财经
文|罗莉
近日,Kimi智能助手火了。
一个明显的感知是,最近身边的大学生、职场人士都开始谈论起了Kimi。一位职场宝妈告诉派财经,她最近在尝试用Kimi辅导娃写作业,“真的很方便,都不用下载APP小程序和网页就能打开。”
根据AI产品榜aicpb.com统计,目前国内访问量前十的产品中,Kimi在3月以12.61M的访问量、环比321.58%的增长排在第二,仅次于文心一言。
成立近一年,短短五个月内Kmi的“长文本”输入量提升了10倍。
3月18日下午,月之暗面曾宣布在大模型长上下文窗口技术上取得新的突破,Kimi智能助手支持无损上下文长度从最初的20多万字,扩容到200万字。该消息公布后,Kimi关注度一路走高,一度挤爆了服务器。3月22日,月之暗面回应称,观测到Kimi系统流量持续异常增高,流量增加的趋势远超对资源的预期规划,并表示已经有多项应急措施正在实施,包括已经进行了5次扩容工作。
此前,月之暗面副总裁许欣然在会议室展示了几份用于测试的文件。几十万字的《甄嬛传》剧本,Kimi不仅能够一口气读完,而且还能根据情节准确回答出细节问题,解析人物剧情走向;在迅速学习完头部医学书籍《中医内科学》和《中医诊断学》后,便可化身“老中医”进行在线问诊。
Kimi的成功破圈,让国内一众大模型厂商感到措手不及。
1、Kimi,真的强吗?
Kimi用户体验如何?派财经对Kimi、文心一言、通义千问和豆包做了系列小测试。分别对其资料总结能力、检索能力和创作能力进行了测验。
首先是对资料总结、财报解读能力测试:
派财经随机上传了一份阿里2024财年中期报告pdf,输入解读指令。根据生成内容来看,Kimi和通义千问给出的回答,罗列较为清晰,而文心一言则给出了概况,具体需要进一步指令才能继续解读,豆包给出了核心数据提炼回答。
其次是对用户常用的资料检索和整理功能测试:
派财经以“帮我阅读马斯克最新演讲”为指令,分别询问。根据生成内容来看,Kimi通过对7篇资料检索解读,给出了逻辑明确且详细的观点总结,豆包则直接搜索出了多个相关报道链接,文心一言和通义千问则给出了比较框架性的总结。
值得注意的是,派财经发现在已经创建的Kimi窗口上传完本地文件和网之后,智能助手会自动关闭联网模式,这一功能在其它三个智能助手界面尚未发现。
再是对创作能力,生成脚本等创作力测试:
派财经以“围绕北京文旅为主题,写一个短剧剧本”为指令,分别测试其创作能力。按照给出的基础大纲来看,通义千问、Kimi和豆包给出了较为规范的剧本大纲框架,其中Kimi给出的最为规范且细节,提到角色、场景、地点相对较详细,在取名上也较为文艺。相较之下,文心一言给出的标题则较为直接,未交待剧本角色设定,但在场景、对话和独白上更有“人味”。
综上,在文生文应用上,Kimi的效果确实是看起来更有特色。
2、谁在为Kimi站台?
Kimi智能助手是国内大模型独角兽公司月之暗面面向C端用户推出的一项产品。
月之暗面公司成立于2023年3月,创始人杨植麟毕业于清华,博士毕业于卡内基梅隆大学计算机专业,曾就职于Google Brain和美国初创公司FAIR,师从苹果公司人工智能负责人Ruslan Salakhutdinov,有多年创业经验。
从技术能力上看,Kimi的强大基因最初就已经在创始人身上显现。杨植麟是业内公认的长文本领域专家,在近五年的自研语言处理(NLP)领域影响力颇大。
在读博士期间,杨植麟就以第一作者身份发表 Transformer-XL 和 XLNet 两项工作,在谷歌学术上被引用近两万次,并在多个NLP任务上取得了当时的最佳效果。而Transformer-XL成为首个全面超越 RNN 的注意力语言模型,XLNet则在20项顶级会议中获得最佳论文提名。在华人学者引用排名中,杨植麟的学术论文位居前10,在40岁以下排名第一。
杨植麟的学术研究能力,助力其团队创造了Kimi独特且表现优秀的无损压缩技术。
这种技术可减少参数对存储的需求、推理的算力,以及数据传输的带宽占用,从而高效率无损处理百万级的长Token。而为了快速赶上长文本热潮,其他大厂只能退而求其次,选择检索增强生成RAG技术。
Kimi的无损长上下文窗口的方案,是在逐字阅读全文后给出答案。RAG技术是对全文关键信息进行检索生成答案,但可能会丢失掉部分关键的信息。
这也就解释了为何Kimi的长文本对话回答更准确,在用户体验度上美誉颇多。
但也有小红书博主发笔记表示,在对Kimi的测试中发现,Kimi有一股RAG味。
“月之暗面”这个名字,来源于英国著名摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》,在科研之外,杨植麟也是一名摇滚发烧友,他曾在乐队中担任鼓手角色。
资本市场众星捧月。创业一年之内,月之暗面就已经完成了两笔融资。最新一轮融资是在今年2月19日,融资额度超10亿美金,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。该笔融资成为国内AI大模型迄今为止单轮融资最高的金额。早在2023年6月,月之暗面就曾获得来自包括红杉中国、真格基金等头部投资公司的3亿美金融资。在两轮融资之后,当前月之暗面估值达到了25亿美元。
Kimi的走火,离不开阿里在底层的算力支持。有消息称,最新10亿美金融资中有8亿美金来自阿里,部分资金以阿里提供的算力折算。当前,Kimi借调了阿里的英伟达(NVDA.O)A800以及A100 GPU处理器的机型进行扩容,未来Kimi算力侧的支持,也将主要来自于阿里。
3、Kimi抢了文心一言和豆包们的故事
在对AI长文本探索上,Kimi绝对不是第一家,国内大模型头部大厂,百度文心一言、阿里通义千问和360AI早已在做长文本的探索,抖音也在去年年底发力AI工具豆包。
在其他大模型大厂还在卷参数、开源和榜单的时候,Kimi切中了一个更贴近市场刚需的应用场景。将长文本作为标签,通过大量的广告营销和用户口碑,以“长文本”概念迅速占领用户心智。上线之初,就通过突出文本处理字数,为自己贴上了“超大内存”的标签,在PC硬件时代,不少C端用户的认知是,内存越大,处理能力就越强。
在Kimi出圈之前,行业内在C端用户市场教育上,百度的文心一言一家独大,文心一言是大模型厂商中率先向社会全面开放的平台。据相关数据统计,截至2023年9月,百度文心一言App的月活量达到最高峰值710万。不过与Kimi不同的是除了2C之外,文心一言更大的精力放在研发行业大模型,垂直B端应用上。
其次是抖音的豆包在年初的初露头角。依托于抖音的流量转化池,字节跳动旗下的豆包APP在2024年1月活翻了一倍达到了400万。
而新晋“网红”Kimi的走红要更快,据Similarweb数据,Kimi Chat网页端数据最新峰值达34.6万人次。根据AI产品榜,Kimi Chat的2月访问量在国内榜排名第三,2月平均日活同比上升101.9%,全球增速榜排名第一,3月前二周继续攀升。
Kimi上线的时间是2023年10月,当时可以支持无损上下文长度最多为20万汉字。在5个月的时间内,月之暗面直接将长文本能力提高10倍。按照AI领域的计算标准,200万汉字的长度大约为400万token,在全球范围内也属于领先的标准。3月18日,月之暗面宣布在大模型长上下文窗口技术上取得新的突破,其自研的Kimi智能助手已支持200万字超长无损上下文,并于今日开启产品内测。
月之暗面方面表示,如今Kimi能够一口气精读500个甚至数量更多的文件,帮助用户快速分析所有文件的内容,并且支持通过自然语言进行信息查询和筛选,大大提高信息处理效率。
在产品定位上,Kimi足够坚定,面向C端用户,主打长文本。AI搜索+文档总结功能。
Kimi开始就为用户敞开了大门,不仅能从网页端入口进入,还能在APP和小程序端口打开,降低了使用大模型的门槛,这是业内B端大模型厂商无法匹敌的。
在选择早期产品使用者集中在科研、法律、金融、媒体等垂直领域,而这部分垂直领域的KOL为Kimi带来了自然流量与口碑积累。
Kimi在发力营销同时,也有一部分“自来水”自发为Kimi站台推广。
将互联网营销公式带入到了硬科技领域,Kimi的营销开局颇为高调。在月之暗面发布的Kimi上线官宣文标题中提到,“欢迎与Moonshot AI共同开启Looooooooooong LLM时代”,其中英文“long”用了接连十个“o”将Kimi的“长文本能力”直观呈现出来。
Kimi提供的长文本阅读能力和概括能力是两大功能,面向C端用户,致力于为用户打造一个高学习力的免费私人助手。
一份上万字的文献,投喂给Kimi,只需要几分钟就能读完全文并归纳总结出核心论点,极大程度为用户提升了阅读效率。
用户投喂的各种资料又能反哺Kimi的语意语境学习理解能力,从而在不断打磨中提高准确性。值得一提的是,在此类专业语料处理上的进步速度,Kimi甚至快于Open AI。主要由于当前Open AI对于C端用户上传文件仍然有所限制。
如果把Kimi智能助手类比做人类,它的突出之处在于具备较长时间段的记忆力,是一个记性超好的学霸,可以一次记住20万字的上下文,一口气读完一本书或者一系列文章。相较国外综合能力最强的学霸GPT4(可以记住2.5万字)。Kimi的记忆力是GPT4的8倍。
有小红书博主试着通过Kimi智能助手,训练出在自媒体领域现象级创作者咪蒙,将50个文档投喂给Kimi之后,一步步引导其分析咪蒙写作的核心特点以及对待感情态度后,下指令让其生成一篇关于“彩礼”的文章,成稿虽然简短但颇具“咪蒙味”。
在Kimi走火之后,各大模型厂商纷纷“秀肌肉”。
据第三方机构的最新统计数据显示,目前国内已经发布的大型语言模型数量已经超过了300个。这些大型模型的发布主体涵盖了科技巨头、国内顶尖的高等学府、以及各类科研机构,他们在资金投入、资源配置、人才聚集等方面都拥有绝对的优势。
国内互联网大厂火速将相关功能进行了升级,卷起了长文本“长度”。
2023年10月30日,Kimi首发不到一个月,同为清华系校友的王小川的百川智能就推出了单次处理35万汉字的Baichuan2-192K,打破了Kimi的20万字记录,随后,李开复也发布了能够处理40万字的Yi-34B。
在Kimi宣布更新200万字长文档处理能力后,阿里宣布通义千问升级,免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用;随后,百度文心一言、360智脑也都把500万字长文本提上了日程。
目前,大模型最强王者OpenAI的GPT-4 Turbo-128k可处理文本能力约为10万汉字,专攻长本文的Claude3-200K上下文处理能力约为16万汉字。
一时间,各大模型厂商比起了谁更“长”,而文本处理能力越长就能代表能力强吗?
此前,对于文本窗口的长度,杨植麟曾表示,不能只提升窗口,不能只看数字,要看它在这个窗口下能实现的推理能力、the faithfulness的能力(对原始信息的忠实度)、the instruction following的能力(遵循指令的能力)。
4、长文本能力能帮Kimi造血吗?
Kimi火爆的表象之下,一个更为现实的问题暴露无遗,长文本能力能为Kimi造血吗?
根据新浪科技提供的数据,考虑到广告投放和算力成本,Kimi每个获客用户的成本达到12-13元,而按照近一个月将近18000的日均下载量计算,Kimi每日的获客成本高达20万元。而除了每日20万的获客成本外,Kimi需要烧钱的地方还有很多,比如不断提升信息检索能力、遵循复杂指令的能力,推动多模态模型研发,以及实现音频处理等其他需求。
接下来,付出了高额成本,能否将现有用户留住,持续转化将是对Kimi产品的一大考验。为庞大的用户群体提供稳定的服务,同样是一笔不小开支。
长文本能力短期内帮助Kimi出圈,但很难成为其独家技术壁垒。Kimi的长文本处理能力与通义千问、360智脑等AI产品相比,并没有非常明显的优势。
虽然实现造血能力难,但Kimi的C端策略也有一定意义,通过长文本先征服用户,进而让更多B端客户看到大模型底层应用能力的真正价值。
但从整体盈利角度来看,Kimi靠烧钱摸索出的获客模式很容易被复制,对于将业务重心放在B端服务的大厂们来说,获客成本反而是更低的。
行业内多数大模型公司均采取的是2B和2C两条腿走路,通过推出行业大模型直接售卖B端解决方案,或是向公司、开发者售卖API,按照调用次数收费。此外,以文心一言为代表的一种C端打法是,面向C端用户,为会员增值服务,在应用端按月/年向用户收费,当前文心一言扔在试水阶段,而后起之秀Kimi则仍然处于免费模式阶段。
不过,有声音认为,Kimi的出现对于国内大模型市场提供了新的思路,从基础大模型的训练和竞争逐步向更贴近客户的产品功能和细节需求转变。
有业内人士表示,当下这一轮人工智能革命本质上是自然语言处理(NLP)的技术革命,更是一次交互方式的革命。从文本向多模态发展是大模型必经之路。而视频处理需要更大的参数量和存储容量,对算力和算法的要求也更高。接下来Kimi的应用将从单模态,向多模态化发展,即从单一的文本处理基础上,增添声音、图像等信息处理技术。
亦有观点认为,Kimi的出圈意味着在中文领域开启了AI大模型应用元年,长文本时代已至。大模型在实现通往AGI(通用人工智能)路上又近了一步。然而需要厘清的是,长文本能力并非唯一标准,多模态学习、神经网络架构创新、应用落地与生态建设、伦理与道德框架构建等各个维度都不可或缺。
一位初入职场的金融分析师向派财经感叹道,Kimi的强大学习理解能力让人感到威胁,“可能过不了多久,向我这样的初级分析师就要被AI智能助手替代了。”这一担忧并非空穴来凤,在效率至上的资本市场,华尔街有个说法叫“20美金实习生”,时薪20美金的实习生工作未来一段时间大概率会被AI替代。
AI是否会替代职场人?在《所罗门的密码:AI时代的价值、权力与信任》中,作者奥拉夫·格罗思、马克·尼兹伯格曾给出过解释,“最终,问题不在于工作是否会改变,工人是否会被取代。这甚至不需要超级智能就会实现。问题是这些转变将会以多快的速度发生,我们能否跟上它们的步伐,特别是在教育和劳动力培训方面。正如奥莱利媒体公司的创始人兼首席执行官蒂姆·奥莱利(Tim O’Reilly),在他的视频《我们为什么永远不会失业》中所说的那样,我们的办法总比困难多。但是,适应新的工作性质需要发挥想象力并做好准备。”