机器学习在社会科学中的应用_财经频道

（原标题：机器学习在社会科学中的应用）

文/陈硕，复旦大学经济系教授，研究兴趣主要集中于发展经济学、政治经济学、经济史及中国经济。本文整理自直播“机器学习在社会科学中的应用”，未经本人审核。

机器学习是人工智能领域最重要的技术进步之一。基于人类认知过程可通过数学模型模拟的假设，大量数据被输入提供框架性学习策略的算法内，“训练”机器自主寻找可以解读数据或提供预测的规则或程序。

利用机器学习，人工智能系统获得了归纳推理和决策能力，而深度学习更将这一能力推向了更高的层次。这些计算机系统能够完全自主地学习、发现并应用规则。

由下图可以看出，机器学习概念的包含关系，它可以通过一种软件或者技术在海量信息中得到某些规律性的结果，如果能触及到到经济学关注的因果关系是更好的。

哈佛大学的经济学教授Susan Athey目前是机器学习在经济学领域内的领军人物，如果对机器学习在经济学领域的应用比较感兴趣的话，可以从阅读她的论文开始。

机器学习在业界的应用

机器学最早在业界用来追求利润，背后驱动力决定了机器学习在业界用得非常早。

在麦肯锡研究院2017年发布的《中国人工智能未来之路》的报告中，将机器学习在业界中的应用分成了认知、预测、决策和集成解决方案。

Source：McKinsey & Company

认知（Cognition），就是眼睛和声音。比如，一个商人很关心自己的产品在市场上的评价、竞品的正负面消息、各平台的数据等，如果以单独的学者、一个团队去爬取数据基本上非常困难，因为要不断的调试。哈佛大学教授Gary King创立的公司——Crimson Hexagon现在在做这个事情，主要面向的用户是学者。

声音识别方面，讯飞的语音识别对于速记员是一个颠覆性的竞争者，甚至可以根据用户画像预测用户偏好的产品。网易云音乐给你推送你喜欢的东西，然后让你去包月它的产品。这些反馈是非常正面的，所以动力也很强。如果做社科领域的研究，他的社会回馈影响力链条是比较长的。

最早应用个性化推荐的视频公司是网飞（Netflix），根据你的爱好给你推荐喜欢的电视剧，然后让你包月产品。后来，网易云、腾讯都采用这个技术，帮你做预测，最终还帮你做决策。

也就是说，给你推荐喜欢的音乐，买不买会员还是你说了算，这是低频的。但如果说要买股票，可能真的需要一些专业的人工智能帮你去推荐，此时人工智能就可以根据你的风险偏好、资本、大盘走势和政策去做出决策。

比如，财富管理公司其实已经是全球非常顶尖的财富管理公司，已经应用了很多这方面的技术。同时下围棋的时候，AlphaGo也是做决策，这就是人工智能皇冠上最璀璨的宝石。

再比如，无人驾驶解决方案，为什么全世界主要的工业化国家要抢赛道的原因，因为它相当于整个人工智能的集大成者。他包括了识别、预测、决策，最后在一起就是集成解决方案。

物理学：高维数据分类及降维

机器学习在自然科学领域的应用可以直接看几篇论文，都是《nature》、《science》上的顶尖论文，可以看一下他们在物理学上的应用，在物理学主要是涉及到高维数据的分类和降维，需要用机器学去降维降到人可以判断的程度。同时它还能帮助我们找新粒子，比如医学上的应用比较。

社会科学家学者觉得比较直观的是大数据和图像的识别。人脑里面的电信号就是大数据。我们大概能知道这些动作在哪些皮层控制，但手的动作跟具体哪一个电信号是一致的现在人类还搞不定，因为它数量太大。

其次，动作也基本上无限，这样的话通过机器学习的用途非常大，比如，这篇《nature》上的文章就以一个患者出了车祸导致了他右肩某处功能上有点丧失，神经就断掉了。

现在的研究脉络是，如果能找到手指的控制电信号就直接可以把电信号绕过损害的部位，直接引到手指这个位置，相当于把功能恢复了。但前提是要通过机器学习的方法找到这些动作对应的电信号，这是非常伟大的技术。

机器学习在医学上的应用最普遍的是帮我们去读医疗影像学的资料，都是要靠图像科的医生去判断的。现在的机器学习基本上相当于一个6年的影像学医生，经验是非常丰富了。

数据生成、预测、因果识别

2015年以后机器学习在社会课应用主要有三类：生成数据、帮助预测和因果识别。虽然机器学习在经济学或社会科学的应用如火如荼，但95%的学者和论文用机器学习都是在做数据生成。至于那些预测和因果学习这种高端用法，如果会了数据生成再去看这些知识基本上也不是很难了。

数据生成（data generating process）：传统的人力收集数据，一方面数据量很大，有一些数据源散落在人的日常行为之中，很难找到。此时，机器学习就发挥用途了，第一个我们平常会在特别熟悉的场景说肆无忌惮的话，第二个是在匿名的场所也能说肆无忌惮的话。

这就是一个本科生叫Alice.Wu，他就找到了匿名论坛并用机器学习把关键词都给收集出来，大家看一下在匿名论坛上这都是赤裸裸的人的本性，如果在桌子上都是非常温文尔雅的，这就是人的复杂性。

图像分析：根据卫星图片告诉大家这个地方的贫困程度。机器学习可以测出微观层面的贫困程度。在这种共同富裕的环境下，可以通过这种东西在它的界限两边去看政策的长期影响，可以分成网格去做，所以说这些技术的适用程度非常高。

从权贵到富贵:中国传世名画中机器学习应用

下图中，左边是梵高的画，右边是高雅的画。高雅是西班牙画家，他在一个教堂里面留了十几幅画，这几幅画都非常有冲击力，不光是题材，色彩也非常的阴暗，但是梵高的画都非常亮。不需要有任何美术知识我们也能够评价这两幅画，但其实社会科学不是很关心固定效应，因为固定效应没有政策含义。

比如，思考除了个人效应之外是不是还有一些系统性的原因决定了某些时期、某些地区的某些画作，而经济学者找系统原因肯定最重要就是经济周期是否影响这些画的颜色。

机器学习识别名画的第一步是要把梵高和高雅的画通过机器给测出来，到底有多亮有多暗，即饱和度。用机器学习把世界历史上所有的现存油画饱和度测出来以后发现，有一段时间一直亮，有一段时间一直下。

如果它跟经济周期在一起的话，我们是不是就提出一个替代性的假设，就是说在经济做萧条的时候，画作是颜色会系统性的偏亮还是偏暗。当然了我们从市场上它有供需，到底是这个画家因为经济萧条卖不出画他比较郁闷，还是它导致了他画亮还是画暗，还是因为需求方想买暗的画还是亮的画。这就是机器学习去读画、文本、图片。

另外一个例子是东方画与西方画，大家发现西方画都是塞得满满的，没有地方是白的，而东方画就觉得云里雾里，这是文化产生的差异思维方式。比如，跑回归可能他们比较喜欢x1、x2、x3这种固定的东西，我们可能比较喜欢 Z调残渣像的东西，所以说这个就风格不一样。

王羲之的书法作品《快雪时晴帖》共26个字，那么多年了上面盖了那么多的章，研究政策含义主要是好奇心驱动。

《快雪时睛帖》作者王羲之 (东晋)，该贴被称为“天下法书第与王献之《中秋帖》王均《伯远帖》被乾隆合称“三希”，位列之首。全贴4行28字:“羲之顿首快雪时晴佳想安善未果为结力不次王羲之顿首山阴张侯”。贴上有印章222枚及大量题跋书画。

该贴所有权变迁轨迹：唐太宗将《快雪时晴帖》赐给郑国公魏征、后转给褚遂良、五代至北宋所有人依次是苏易简、及苏舜元／苏舜钦兄弟、宋徽宗时进北宋内府（见章“内府图书”）、南宋初进高宗内府（见章“绍兴”）、后作为礼品赠金章宗完颜璟（见章“明昌御览”）、金朝灭后重回南宋，由宰相贾似道收藏（见章“秋壑珍玩”）、元被张金界奴收藏（见章“张氏珍玩”）、后进入元内府、明先后被朱成国、王褥登收藏、后被王樨登卖给吴廷（见章吴廷”）、后又被刘承禧买下、并于1621年赠给文震亨、清初被冯铨和冯源济父子收藏（见章“冯铨之印”和“冯源济印”、康熙年，冯源济将该帖献给清廷直到清末（见章“宣统御赏之宝”）。

产权变化是经济学和社会学不平等关注的议题，这就是它的政策含义。

本文系未央网专栏作者:学说平台发表，内容属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

证券之星微信

扫描二维码

关注

证券之星微信

精彩推荐

内容精选