大模型落地之战，如何突出重围？_财经频道

（原标题：大模型落地之战，如何突出重围？）

21世纪经济报道见习记者肖潇北京报道

如同一列高速疾驰的火车，人工智能最近驶入了一个新阶段——就在上周的开发者大会上，Open AI宣布推出GPTs应用商店。大模型从技术走向商业化，落地应用再次站上风口。

如何转动大模型应用的商业飞轮？大模型进一步落地，数据需求和挑战又会有什么变化？

11月13日，由凤凰卫视主办的“数聚未来——凤凰大模型数据研讨沙龙会”在北京召开，来自学界、业界的嘉宾分享了对大模型应用和数据的看法：看好大模型在文娱、教育领域的国内应用前景。构建高质量的数据，将是补短板和发力的关键。

To B应用转动商业飞轮

随着越来越多大模型涌现，商业化应用成为关注重点。

技术架构层面，微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍将生成式AI分为三层：第一层是基础算力，第二层是模型，第三层是应用。

怎么理解它们的变现关系？王巍认为目前离商业化最近的仍然是基础算力层，所谓发现一座金矿，必然是卖铲子的人赚到第一桶金。但大模型的未来发展，与会嘉宾的共识是“还在B端应用上。”

在王巍看来，这是因为垂直行业的落地和更新可能会更快，而面向消费者的应用遵循乘数效应、平台效应，也就是需要慢慢积累影响力，效果才会加倍显现。

香港科技大学（广州）协理副校长熊辉也指出，无论在汽车、教育、还是医疗金融领域，大模型的To B应用场景都比C端丰富，“所以我们认为B端可能是未来大模型技术能够落地生根的重要场景。”

落到具体的行业，熊辉看好大模型和国内的教育、泛娱乐领域结合，原因有两点：

一是需求。不论是抖音短视频还是外教口语课程的流行，都能看出娱乐和教育培训在国内有一定土壤，人们的接受度也因此更高；

二是监管力度。比起医疗、金融，泛娱领域的监管相对宽松，大模型的试错空间较大，更容易落地。

对于大厂如何把握竞争优势，熊辉直言：“从长期的市场竞争角度来说，其实要考虑原始业务。”举例来说，百度在智能搜索上有先天的平台优势，文心一言的未来是智能搜索的未来。而阿里会结合淘宝、天猫的营销经验，用大模型赋能线上零售业；对于移动生态的巨头华为，大模型接下来一定会深入到手机中去。

“从所谓的通用角度来说，还是要有一个自己的业务靠山，要跟自己的业务场景高度结合在一起。”熊辉指出。

短板仍在数据

AI列车疾驰进入新阶段，各国分处的位置和速度亦是热点问题。尽管多项测评显示，国内大模型在技术上基本能和 GPT3.5甚至GPT4.0持平，但多位论坛嘉宾坦言：能力上还是有一定差距。

量子位智库发布的《2023十大AI商业落地趋势》显示，今年上半年，国内约有二十家家大模型公司获得超过60亿元的融资，全球金额占比仅为6%，国内实际交易金额较少。

痛点仍在数据。熊辉坦言：“很多人担心算力，其实我对中国的算力没有过多担心。它是个问题，每个人都承认，但我认为真正问题是数据。”凤凰卫视执行副总裁兼运营总裁李奇同样指出，现在数据的量尽管大，但比较粗糙。

数据好比工业时代的石油资源，它决定了大模型的竞争优势——数据越优质，大模型的效率和准确度就越高。大模型到底需要什么样的数据？

华为云EI产品部部长尤鹏认为，应该关注数据的规模、质量、多样化三个方面。

根据尤鹏和团队的观察，数据规模大概在模型参数的10—20倍的时候，模型能获得最优性能。拿ChatGPT来说，GPT-4的参数超过1.76亿，是GPT-3的十倍，与之对应的训练数据约有13万亿token。按此推理，GPT-5可能有十万亿参数，GPT-6达到百万亿参数。可以预见，相应投入的数据规模也会呈指数级增长。

质量方面，训练前对冗杂、劣质、敏感信息的清洗过滤尤其重要。实际上，数据清洗也是国内大部分大模型厂商会首先进行的工作。“未来其实比拼的就是谁的大模型迭代效率更高，还有谁能吃更多的数据，数据清洗效果更好。”尤鹏说。

在多样性上，熊辉进一步指出，中国在中文数据上是有优势，但是中文数据仅仅占整个人类知识数据体系的一小部分。构建跨语言、跨文化体系，高价值、高质量、全方位的数据，将是一个关键点。

在本次行业研讨会上，凤凰卫视就基于自身的中文访谈对话节目，推出“中文访谈对话数据集”。据悉，更多高质量数据集，包括财经领域的评论数据集、视频内容理解领域的问答数据集等将在之后分批发布。扩容专业领域的高质量数据库，或是一个积极的走向。

落地新挑战

当大模型进一步落地，数据需求和挑战又会有什么变化？

李奇在垂直应用方面提出了见解，他认为未来的数据将围绕着一个知识库开发，系统化、体系化的知识库，应该作为一个长期工程开发。中科闻歌创始人兼首席技术官曹家也指出，“像在金融像医疗这些垂直领域落地，还需要做大量场景化、本地化的训练。通用大模型要在垂直领域落地还有一定的路需要走。”

熊辉强调，要用各种方法保证高质量数据的输入。比如，针对上文提到的语言多样性问题，熊辉认为可以借助其他语种的内容，考虑用像迁移学习（transfer learning）、数据标注的技术手段，提升自身模型的能力。

此外，随着大模型应用推进，数据合规始终是重点。企业层面，尤鹏认为当大模型商业化全面铺开时，监管可能希望提供端到端的数据溯源。他提出可以参考软件的版本管理方法，将数据版本化管理，“这样不管数据集应用到哪个模型、迭代到哪个版本，最终在问题定位和数据溯源的时候，都能理清楚整个生命周期的链条。”

而在更宏观的层面，熊辉认为数据合理、合规、合法的交流更具迫切性。

“现在面临的竞争态势，其实不仅仅是技术竞争，更多是生态竞争。”在这样的国际形势下，熊辉认为建立数据交易所、把国内的数据资源盘活、形成有效数据定价，对于形成一个健康的市场和生态，可以说是当务之急。

证券之星微信

扫描二维码

关注

证券之星微信