(原标题:智源“百模评测”放榜:多模态发展提速或激发新的AI应用)
12月19日,智源研究院发布最新一期FlagEval大模型评测榜单。本次参与测评的有国内外100余个开源、商业闭源大模型,涵盖语言、视觉语言、文生图、文生视频、语音语言多个类别。
智源研究院评测发现,2024年下半年,大模型发展更聚焦综合能力提升与实际应用。语言模型能力趋于饱和稳定,发展相对放缓。多模态模型发展迅速,涌现了不少新厂商与新模型。国内厂商在文生图、文生视频模型方面占据全球第一梯队的位置。
从上榜的大模型厂商看,国内的字节跳动、腾讯、阿里巴巴、百度、快手,国外的OpenAI、谷歌、Meta、Anthropic等大公司的模型排名靠前,比大模型初创公司更具优势。
大模型厂商分层,AI应用或出现新趋势
智源研究院副院长兼总工程师林咏华表示,互联网大厂在用户流量与数据反馈上都会比非互联网厂商有优势,尤其是短视频大厂积累了海量的高质量数据,经过近一年的训练,多模态模型能力进步明显。在今年上半年,一些文生图模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力。
大模型厂商也出现了明显的分层。一部分厂商仍在追求更强更大的人工通用智能(AGI)模型,另一部分厂商则加大了对应用的探索。
智源研究院测评团队观察到,今年以来,从预训练环节开始训练模型的企业已经很少了,开源的语言模型数量也在减少。这在一定程度上说明,业界对基础模型的探索在收敛。不过,国内仍有不少具有实力的厂商在持续发力通用基座模型并选择开源。
智源研究院智能评测组负责人杨熙告诉经济观察网,今年业界更关注应用,一些大模型厂商也在积极向应用侧转变。做应用需要在推理端做更多优化,相比之下,训练更大尺寸的基础语言模型,对企业的技术实力、财力、资源挑战较大。
杨熙称,国内的AI应用还处于用户教育阶段,很多厂商在设计产品时,要么是在教用户怎么正确且高效地使用大模型,要么是通过配套的产品化能力识别出用户的意图,再对用户的请求做适应性调整。这说明国内的AI应用还比较领先。
林咏华认为,过去两年,语言模型的持续发展带来了今年以语言模型为支撑的各种AI应用,2025年,AI应用会出现三个明显的趋势:一是基于语言模型的智能体能够完成更复杂的AI功能;二是文生图、文生视频应用会出现一些突破;三是跨模态的视觉语言模型有望形成新的AI应用。
头部金融模型能力接近初级量化交易员
智源研究院评测结果显示,针对一般中文场景的语言模型在开放式问答或生成任务上的能力已趋于饱和稳定,但是在复杂场景任务的表现上,国内头部语言模型仍与国际一流水平存在显著差距。
在语言模型主观(含价值观)评测中,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二。在视觉语言模型评测上,OpenAI GPT-4o-2024-11-20位列第一,字节跳动的豆包视觉模型紧随其后。
文生图多模态模型虽然在这半年进步较大,但仍会出现复杂场景人物变形的情况。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分列第二、第三,OpenAI DALL·E 3、快手可图次之。
在文生视频多模态模型评测中,画质进一步提升,动态性更强,镜头语言更丰富,转场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模等情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
语音语言模型能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距。整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。
在本次测评中,智源研究院首次增加了金融量化交易榜单。评测结果显示,头部模型能力已接近初级量化交易员的水平。大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码。其中,深度求索Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。
据了解,本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。
(以上图片均由智源研究院提供)