大数据行业正转向场景驱动

来源:经济观察报 2020-05-11 17:45:03
关注证券之星官方微博:

在国内新型冠状病毒疫情焦灼的2月份,清华大学全球私募股权研究院联合经济观察报,面向65家主流私募股权和创业投资机构开展了一项问卷调查。数据显示,超过三成的被调研机构所投的大数据/云服务企业受到疫情正面影响;投资人同时认为,这些积极影响将在疫情过后持续发酵。

那么,在疫情中发挥积极作用的人员追踪定位、医疗影像大数据和基层智慧政务等大数据业务是如何组织开展的?新业务场景的涌现对大数据行业的进一步发展将带来哪些影响?哪些领域将长期受益?什么样的大数据公司将更具竞争力?

定位追踪与数据获取

在疫情防控过程中,数据共享机制为高效追踪并精准隔离与确诊病例有密切接触的人员,提高公务人员的办事效率起到了重大作用。

为寻找潜在感染人群,互联网平台推出“密切接触者测量仪”等APP,用户输入姓名和身份证号码,即可查出自己是否与确诊、疑似病人同乘过一趟交通工具。这些工具的产生得益于国家卫健委、交通运输部和铁路总公司等多部委的数据共享,使数据碎片经整合后可以无缝对接。

同样,移动通信运营商配合卫健委,将手机的漫游位置数据与确诊、疑似病例数据关联起来,即可发现潜在的密切接触者,使得特殊时期人员的行动轨迹更加透明、准确,提高筛查的针对性,一定程度上阻止了瞒报等行为造成的后果。

此外,支付宝与微信也相继推出健康码服务,经市民或返岗人员自行填报及后台审核后,生成的二维码成为个人的电子通行证,简化信息填报流程,提高数据收集效率,为推动企业健康合理的复工复产提供了便利。

从本次数据共享机制为疫情防控起到的作用可见,在大数据产业链中,数据的获取是各项应用产生的前提,获得数据的能力有时比处理数据的能力有着更大的意义。从投资的角度,这也反映出,数据即资产,能够获得大量数据的企业在运营中具有先发优势。

目前,大数据公司获得数据的渠道主要通过产业链采买和自我造血两种方式。

以往通过爬虫来收集互联网中的公开数据的方式,由于其合规性的界定标准模糊,频频发生侵犯公民隐私的恶性案件。随着行业的整顿,为避免触碰法律红线,部分依赖爬虫来采集数据的公司,已主动或被动地关停爬虫业务,转而通过购买产业链上提供的脱敏后的数据。

自我造血就是在自身业务经营中产生数据并加以利用,比如主营电商、在线教育的企业自身就会产生大量数据,银行、保险等金融机构本身也会掌握大量数据。利用自有资源获得数据往往是得益于企业间的关联,比如有些银行会成立自己的科技子公司,这种子公司既可以获得母公司的金融数据,同时保持独立经营,这样的科技公司就是具有天然的数据资源优势的。

通过本次疫情防控中数据共享发挥的效果,未来大数据企业与数据源头机构的合作机制势必会更加完善,更大程度发掘数据在生产生活中的价值。

医疗大数据与数据标注

在疫情爆发初期,由于确诊病例的数量较少,临床队伍没有足够的样本,咽拭子核酸检测是新型冠状病毒肺炎确诊和出院的主要判断标准。

然而,受试剂盒质量、病毒分布位置、采样操作方法、技术人员水平等因素的限制,核酸检测只有30%-50%的阳性率,因此许多临床症状已经很严重的病人,核酸检测却呈现假阴性,导致部分患者没有得到及时的确诊和救治。

随着样本数据的增多,临床不再依赖核酸检测,CT影像诊断逐渐成为新冠肺炎确诊的标准。每位新冠肺炎病人大约会产生300张左右的CT影像,全部通过医生肉眼分析影像会耗费大量时间,给医生带来很大压力。

达摩院医疗AI团队结合诊疗方案及新冠患者临床特征,以5000多个病例的CT影像为样本,学习训练出样本的病灶纹理,开发出适用于诊断新冠肺炎的AI算法模型。该模型的识别准确率达96%,且对一个病例的识别只需不到20秒,极大地提高诊断效率,减轻医生压力。

近年来,医疗大数据对医学进步做出的贡献效果无疑是显著的,但医疗行业对于数据的利用相比于其他行业具有更大的特殊性。

由于医疗行业背景知识的专业度较高,很多数据处理人员无法理解相关数据的特点。比如在以CT影像为基础开发智能识别疾病的模型时,对于训练模型所使用的样本,首先要进行图像的标注,而目前多数标注还是依靠人工来识别,不仅耗时耗力,且不具备相当医学水平的人难以处理出可靠的标注数据。

目前,专业经营数据标注的企业有自有团队和众包结构两种模式。前者一般具有一定规模的专业数据标注师,标注数据的质量相对有保障;后者往往是招募大量的兼职标注师经过简单培训后即可上岗,只能做较为简单的标注,对于医学影像这种需要医学专业判断力的数据更是难以胜任。

因此,对于专业的医疗领域,数据应用的开发不仅需要算法,更需要对医疗背景知识的深入理解,未来医疗大数据的运用更多的会需要对医疗和数据都有相当认识的复合型人才。

大数据协助提高诊断效率的同时,也促进了此次药物筛选的工作。由于新型病毒特效药的研发周期长,按一般规律需要5-10年。为解燃眉之急,老药新用成为医药专家们重点关注的途径。

面对近万种已上市或临床试验的备选药物,为缩短筛选时间,节省工作量,全球药物研发中心(GHD-DI)和清华大学药学院向外部科研团队和机构免费开放了大量内部资源,如人工智能药物研发和大数据分享平台、计算化学和药物虚拟筛选平台、高通量药物筛选平台及多个化合物分子库等。

在老药新用的筛选过程中,科学家需要通过机器模拟分子化合物和靶点的相互作用,筛选出潜在有效的化合物来做进一步实验,从而提高实验的针对性,将有限的实验资源用在最有可能成功的药物筛选上。

但是,从大量的已批准上市药物中筛选出能够抑制冠状病毒靶点的药物,会耗费超乎想象的计算资源。在本次药物筛选工作中,阿里云为全球公共科研机构免费提供高性能的计算平台、CPU/GPU集群及AI算力,云计算的加入很大程度地节省对全球已上市药物小分子和中药分子的筛选时间。

可见,在未来的医药大数据领域,算力已成为该领域发展的直接动力,计算效率的提升和算力成本的降低将为医药产业科研攻坚的路上注入更大的能量。

智慧政务与场景理解和服务能力

社区是防止病例输入和扩散最基本的防线。本次疫情爆发于春节,如何控制人员的流动,成为打赢本次疫情阻击战的重点。在此次社区人员管理的工作中,智慧政务为帮助社区精准防疫起到了推波助澜的作用。

二维码的使用让社区的防控工作更加快捷有效,互联网平台推出多种应用,一部手机即可实现访客登记、健康打卡、视频关怀、数字巡查、消息上传下达等功能。

以杭州国家电网为代表的供电公司,推出“电力大数据+社区网格化”算法,让社区管理人员可以根据电力使用情况跟踪业主状况。这套算法通过对157476户居民、超过1000万条电力数据进行收集和挖掘,设计出居民短暂和长期外出、举家返回、隔离人员异动等三个场景六套算法模型,判断社区人员的日流动量和分布,并实时监测居家隔离人员和独居老人等群体,用更智慧可靠的数字手段筑起社区防御壁垒。

此次社区在防疫中的信息化管理,彰显了智慧政务在现代城市管理中的潜力。疫情过后,这种标准化、便捷化、协同化、平台化的管理方式将在社区管理中延续下去,不断优化政务服务流程,丰富服务形式和提高居民满意度。

智慧政务的建设需要技术支持和政府配合,准入门槛相对较高。目前,处于产业链顶端的BAT等互联网巨头,借助自身的品牌优势、政府关系和资源基础,在对接政府客户的过程中更具优势。

与此同时,中等规模的大数据独角兽公司,也凭借自身的B端服务能力和技术实力,在产业链中发挥着承上启下的作用。所谓“承上”,是参与大型互联网公司的订单外包,或是直接获得地方政府客户;所谓“启下”,则是将部分数据维护的业务再外包给规模更小的数据公司。

中国作为大数据数据量占比最高的国家,2019年大数据行业整体规模已超过5000亿元人民币,且未来两年每年增速均将超过20%(数据来源:信通院《大数据白皮书(2019年)》);其中,大数据核心产业规模也已突破300亿元。

随着大数据技术的逐渐成熟和更多业务场景的涌现,大数据行业正在从技术驱动型转向场景驱动型。掌握数据源或具备数据获取能力,基于场景的理解有效建模将成为大数据企业在行业发展中持续获益的核心竞争力。

(刘星系清华大学全球私募股权研究院,王晓萱系太平洋证券研究院)

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-