(原标题:大模型落地之战,如何突出重围?)
21世纪经济报道见习记者肖潇 北京报道
如同一列高速疾驰的火车,人工智能最近驶入了一个新阶段——就在上周的开发者大会上,Open AI宣布推出GPTs应用商店。大模型从技术走向商业化,落地应用再次站上风口。
如何转动大模型应用的商业飞轮?大模型进一步落地,数据需求和挑战又会有什么变化?
11月13日,由凤凰卫视主办的“数聚未来——凤凰大模型数据研讨沙龙会”在北京召开,来自学界、业界的嘉宾分享了对大模型应用和数据的看法:看好大模型在文娱、教育领域的国内应用前景。构建高质量的数据,将是补短板和发力的关键。
随着越来越多大模型涌现,商业化应用成为关注重点。
技术架构层面,微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍将生成式AI分为三层:第一层是基础算力,第二层是模型,第三层是应用。
怎么理解它们的变现关系?王巍认为目前离商业化最近的仍然是基础算力层,所谓发现一座金矿,必然是卖铲子的人赚到第一桶金。但大模型的未来发展,与会嘉宾的共识是“还在B端应用上。”
在王巍看来,这是因为垂直行业的落地和更新可能会更快,而面向消费者的应用遵循乘数效应、平台效应,也就是需要慢慢积累影响力,效果才会加倍显现。
香港科技大学(广州)协理副校长熊辉也指出,无论在汽车、教育、还是医疗金融领域,大模型的To B应用场景都比C端丰富,“所以我们认为B端可能是未来大模型技术能够落地生根的重要场景。”
落到具体的行业,熊辉看好大模型和国内的教育、泛娱乐领域结合,原因有两点:
一是需求。不论是抖音短视频还是外教口语课程的流行,都能看出娱乐和教育培训在国内有一定土壤,人们的接受度也因此更高;
二是监管力度。比起医疗、金融,泛娱领域的监管相对宽松,大模型的试错空间较大,更容易落地。
对于大厂如何把握竞争优势,熊辉直言:“从长期的市场竞争角度来说,其实要考虑原始业务。”举例来说,百度在智能搜索上有先天的平台优势,文心一言的未来是智能搜索的未来。而阿里会结合淘宝、天猫的营销经验,用大模型赋能线上零售业;对于移动生态的巨头华为,大模型接下来一定会深入到手机中去。
“从所谓的通用角度来说,还是要有一个自己的业务靠山,要跟自己的业务场景高度结合在一起。”熊辉指出。
AI列车疾驰进入新阶段,各国分处的位置和速度亦是热点问题。尽管多项测评显示,国内大模型在技术上基本能和 GPT3.5甚至GPT4.0持平,但多位论坛嘉宾坦言:能力上还是有一定差距。
量子位智库发布的《2023十大AI商业落地趋势》显示,今年上半年,国内约有二十家家大模型公司获得超过60亿元的融资,全球金额占比仅为6%,国内实际交易金额较少。
痛点仍在数据。熊辉坦言:“很多人担心算力,其实我对中国的算力没有过多担心。它是个问题,每个人都承认,但我认为真正问题是数据。”凤凰卫视执行副总裁兼运营总裁李奇同样指出,现在数据的量尽管大,但比较粗糙。
数据好比工业时代的石油资源,它决定了大模型的竞争优势——数据越优质,大模型的效率和准确度就越高。大模型到底需要什么样的数据?
华为云EI产品部部长尤鹏认为,应该关注数据的规模、质量、多样化三个方面。
根据尤鹏和团队的观察,数据规模大概在模型参数的10—20倍的时候,模型能获得最优性能。拿ChatGPT来说,GPT-4的参数超过1.76亿,是GPT-3的十倍,与之对应的训练数据约有13万亿token。按此推理,GPT-5可能有十万亿参数,GPT-6达到百万亿参数。可以预见,相应投入的数据规模也会呈指数级增长。
质量方面,训练前对冗杂、劣质、敏感信息的清洗过滤尤其重要。实际上,数据清洗也是国内大部分大模型厂商会首先进行的工作。“未来其实比拼的就是谁的大模型迭代效率更高,还有谁能吃更多的数据,数据清洗效果更好。”尤鹏说。
在多样性上,熊辉进一步指出,中国在中文数据上是有优势,但是中文数据仅仅占整个人类知识数据体系的一小部分。构建跨语言、跨文化体系,高价值、高质量、全方位的数据,将是一个关键点。
在本次行业研讨会上,凤凰卫视就基于自身的中文访谈对话节目,推出“中文访谈对话数据集”。据悉,更多高质量数据集,包括财经领域的评论数据集、视频内容理解领域的问答数据集等将在之后分批发布。扩容专业领域的高质量数据库,或是一个积极的走向。
当大模型进一步落地,数据需求和挑战又会有什么变化?
李奇在垂直应用方面提出了见解,他认为未来的数据将围绕着一个知识库开发,系统化、体系化的知识库,应该作为一个长期工程开发。中科闻歌创始人兼首席技术官曹家也指出,“像在金融像医疗这些垂直领域落地,还需要做大量场景化、本地化的训练。通用大模型要在垂直领域落地还有一定的路需要走。”
熊辉强调,要用各种方法保证高质量数据的输入。比如,针对上文提到的语言多样性问题,熊辉认为可以借助其他语种的内容,考虑用像迁移学习(transfer learning)、数据标注的技术手段,提升自身模型的能力。
此外,随着大模型应用推进,数据合规始终是重点。企业层面,尤鹏认为当大模型商业化全面铺开时,监管可能希望提供端到端的数据溯源。他提出可以参考软件的版本管理方法,将数据版本化管理,“这样不管数据集应用到哪个模型、迭代到哪个版本,最终在问题定位和数据溯源的时候,都能理清楚整个生命周期的链条。”
而在更宏观的层面,熊辉认为数据合理、合规、合法的交流更具迫切性。
“现在面临的竞争态势,其实不仅仅是技术竞争,更多是生态竞争。”在这样的国际形势下,熊辉认为建立数据交易所、把国内的数据资源盘活、形成有效数据定价,对于形成一个健康的市场和生态,可以说是当务之急。