(原标题:科大讯飞也要打造中国版ChatGPT,5月将率先落地AI学习机)
本文来源:时代财经 作者:高浩翔
毫无疑问,科技圈时下最大的热点是ChatGPT。
这一由美国科技公司OpenAI开发的聊天机器人,以其优秀的意图识别与语言理解能力震惊全世界。在发布短短两个月时间内,ChatGPT 月活用户更是突破了1亿大关,成为史上用户增长速度最快的消费级应用程序。微软创始人比尔盖茨在接受媒体采访时,甚至直言ChatGPT的历史重要性不亚于互联网的发明。
在ChatGPT的引领下,越来越多的科技企业开始加入这场人工智能竞赛。在海外,微软、谷歌、Meta等美国科技巨头纷纷重金布局相关赛道,大幅增加对AI领域的投资。
国内一众大厂同样不甘寂寞。百度迅速宣布类ChatGPT项目“文心一言”正在开发,预计3月份发布;与此同时,阿里达摩院类ChatGPT项目则被曝出已开放内测。除此之外,据媒体统计,截止2月10日,还有腾讯、华为、字节、京东、360、快手、网易等10余家企业宣布有相关技术储备,或准备发布类似产品。
不过,从时间表来看,最快给出具体上市时间的国内玩家并非上述大厂,而是长期专注在AI技术领域的科大讯飞。
2月8日晚间,科大讯飞在投资者互动平台回应称,ChatGPT主要涉及到自然语言处理相关技术,属于认知智能领域的应用之一,公司在该方向技术和应用具备长期深厚的积累。科大讯飞AI学习机将成为该项技术率先落地的产品,将于今年5月6日进行产品级发布。
但相关疑虑也随之而来。市场不禁好奇,科大讯飞是否真的有希望复刻ChatGPT?而这家公司又为何选择将这一技术率先落地AI学习机?
ChatGPT里的Chat,即指聊天,GPT是Generative Pre-trained Transformer的缩写,指“生成型预训练变换模型”,其本质是一种基于机器学习的大语言模型,属于自然语言处理NLP的范畴。通俗来说,可以将ChatGPT理解为通过大规模预先训练,处理巨量语言材料,从而获得接近人与人直接对话能力的一种算法模型。
不过,ChatGPT并未出现算法的革命性突破几乎成为业内共识。如复旦大学信息管理与商业智能系系主任、教授张诚在接受媒体采访时就指出,从技术应用上看,ChatGPT并没有创新性可言,其出圈的关键在于选对了技术应用的落脚点。
因而从技术层面来看,国内企业也并未如外界设想的那样落后那么多年。2月8日,三六零公司董秘赵路明在接受采访时曾表示,国内的技术水平目前整体在GPT2.3左右。如果基于互联网优势,大家都用中文提问、尤其是国内的问题,实际体验能达到GPT2.5版本左右。
相比ChatGPT目前仰仗的GPT3.5版本,只存在一代左右的技术差距。
而具体来看,ChatGPT核心绕不过算法、数据、算力三要素。在算法层面,国内大厂基本都有做NLP预训练模型的能力,如百度有文心大模型、腾讯有混元大模型、阿里有通义大模型等等,基本处在世界领先的水平。
作为AI龙头的科大讯飞,在NLP方面同样有诸多研究积累。时代财经获悉,科大讯飞主导承建了认知智能全国重点实验室。这一实验室是科技部首批20家标杆全国重点实验室之一,多年来始终保持关键核心技术处于世界前沿水平,在去年曾获得CommonsenseQA 2.0、OpenBookQA等12项认知智能领域权威评测的第一。
与此同时,科大讯飞面向认知智能领域陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型系列之一,在Github获13346颗星,位列中文预训练模型星标数第一。
科大讯飞在预训练模型方面的先发优势,也得到了同行的肯定。2月8日,三六零公司董秘赵路明在接受采访时表示,“科大讯飞人家从很早开始就做AI训练模型,做的很专业。”
除算法之外,数据量同样是ChatGPT有如此惊艳效果的重要原因。资料显示,ChatGPT底层技术GPT 3共计拥有1750亿参数,而上一版本GPT-2只有15亿参数,数据量的差异,成为它们表现存在巨大差异的主要原因。
从这个角度看,起家AI的科大讯飞虽略逊于百度、360这样的搜索引擎玩家天然的数据来源优势,但依然拥有在讯飞输入法、讯飞开放平台、消费办公类产品带来的大量数据。与此同时,科大讯飞还在教育、医疗这种高壁垒、高门槛的领域有规模化的专业数据积累。
而AI训练和使用所需要的强大算力方面,科大讯飞同样有着深厚的积累。从2009年开始,科大讯久就已着手进行算力基础设施建设,目前已建成4城7中心深度学习计算平台,算力不仅完全满足AI算法模型训练,还能面向开放平台数百万开发者和其他行业伙伴提供相关的服务。
此外,算力的基础是芯片,鉴于当下的不可控的国际环境,能否实现“自主可控”一直是行业和市场关注的重要维度。科大讯飞披露数据显示,目前讯飞研发训练服务器已经开始进入国产化,切换之后效率有的是原来平台的 70-80%,有的效率是超原来平台100+%。而在算法上,也启动了推理服务器的国产替代;典型产品如学习机芯片已经全部切换成国产自主。
从算法、算力和数据这三个基本盘来看,科大讯飞想要打造一个中国版ChatGPT并非没有希望。
技术的进步终究要反应在应用层面。业界除了赞叹于ChatGPT类人化的表现之外,此外不少讨论仍集中在应用层面。
自今年1月初,微软表示其正计划将 ChatGPT 整合进必应,从而可以直接针对用户的一些搜索进行个性化回答以来,较多的讨论围绕在ChatGPT对搜索引擎的替代上。然而受限于ChatGPT 只摄取信息无法判断信息的特性,其准确性堪忧,在不能出错的教育、医疗等专业领域无法直接使用。
这也就给科大讯飞这样的玩家留出了机会。正如上文所述,相比其他对手,科大讯飞很大一部分的竞争优势在于其在教育、医疗这种高壁垒、高门槛的领域有规模化的专业数据积累。教育、医疗板块因此成为科大讯飞着手类ChatGPT技术最好的发力点。
对新技术的探索,一般都是从最成熟的业务板块开始。2022年中报数据显示,教育是讯飞的第一大根据地业务,公司教育、教学相关产品营收高达23.3亿元,占总营收比重超过29%。
相应的,科大讯飞在这一板块也已经沉淀了大量数据和行业知识。目前,科大讯飞智慧教育产品已在中国32个省级行政单位以及日本、新加坡等海外市场广泛应用,并与全国5万余所学校深度合作,服务师生超过1亿。
大量的数据,足以支撑科大讯飞做出专业的教育AI产品。与此同时,在1月30日举办的投资者交流会上,科大讯飞董事长刘庆峰在回应ChatGPT有关问题时亦指出,ChatGPT在C端的应用是有价值的,特别是在对话系统的提升中,相关预训练模型对教育C端和医疗C端有很好的促进作用。
而在教育业务当中,学习机则是其在C端当仁不让的拳头产品。在2022年终的内部讲话中,刘庆峰透露,2022年科大讯飞AI学习机营收增长53%,新增专卖店实现100%增长,线下销量同比增长130%。在这个原本被认为像手机一样完全充分竞争的市场,科大讯飞成功闯出一片天地。
而究其原因,刘庆峰表示,“科大讯飞的AI学习机不是工具性产品,有着强烈的学习属性、用户粘性,以及独一无二的核心价值。这是今年营收目标继续加速增长达到77%的底气。”
从这个角度审视,就不难理解科大讯飞为何要率先在AI学习机产品上落地类ChatGPT技术。
有了类ChatGPT技术的加持,AI学习机在中英文作文辅导、中英文口语学习等方面将得到显著提升,拿下更大的市场。与此同时,科大讯飞也能从这个成熟的产品出发,完成一场C端的突围。并从中积累成功经验和技术实力,进一步复制到各个行业之中,探索预训练模型在更多应用的可能。
在透露类ChatGPT技术将率先落地AI学习机的同时,科大讯飞方面指出,2023年公司会持续升级ChatGPT系列技术,并陆续应用于公司在教育、医疗、汽车、消费者等多个行业赛道的既有产品,持续提升核心技术效果和产品体验。