(原标题:人工智能的最后一公里)
郑磊/文
“机器会思考吗?”人工智能之父艾伦·图灵的这个问题已经部分得到解决,机器学习已经能够在部分领域表现得像人类一样会思考和行动,比如下棋。
目前,机器学习已经成为推动工业和社会发展的重要力量,可以实现从电子商务和广告投放到教育和医疗等领域的自动化决策。基于计算机的图像分析领域中的人脸识别是一个很好的例子。如果我们手里有大量医疗影像照片,就可以用这些照片训练机器,让它学会看新照片,推测是否存在某种疾病。机器学习还可以用于公司安保系统,判断访客是否是公司员工。但是机器学习也受到很多诟病,主要是这种学习方式必须基于大量数据,甚至可以说这种人工智能必须是建立在大数据基础之上。而现实中,很多时候我们要解决的问题,只有少量样本可供使用。这就是智能机器和人类的一个本质差别,人类学习不仅基于已有信息和知识,更会举一反三,把一个模型适当修改之后用在另一个场合。这就是迁移学习,是传统机器学习下一步需要掌握的能力。
在过去的十几年里,不管是在算法、理论研究还是实际场景应用方面,迁移学习都得到了越来越广泛的关注和研究。《迁移学习》这本书由该领域资深专家撰写,系统全面,包括了迁移学习理论、自动迁移学习、小样本学习、终身机器学习等,以及在计算机视觉、自然语言处理、推荐系统、生物信息学、行为识别等方面的成果。
婴儿首先学习如何分辨自己的父母,然后利用这种分辨能力去学习如何分辨其他人。儿童可以仅从一些例子中学习,就能快速归纳出规律。这种从小数据中学习的能力,使得我们能够利用和调整以前的经验,来帮助解决新问题。在这种学习的适应能力上,人类目前遥遥领先于智能机器。我们经常遇到的是相互孤立、碎片化的少量数据,有时候由于很多限制,无法收集到大量数据,比如隐私保护。此时,机器学习就遭遇了难以克服的瓶颈问题。而迁移学习正是针对这一挑战的一种解决方案,这种学习机制可以使人工智能系统更加可靠和稳定,也使它可以采用更复杂的模型来应对将会出现的变化。
通过迁移学习可以让知识得到重复利用,从而使获得的经验可以被重复地应用到现实世界中。如果人工智能能够有效运用迁移学习,我们就可以获得会终身学习的智能机器。这和人类进化的轨迹有类似之处,人工智能科学家一直在向这个方向努力。研究人员一开始就将迁移知识的能力当作人工智能的主要基石。类比学习、基于案例的推理、知识重用和重建、 终身机器学习等,都属于这个范畴。在教育和学习心理学领域,学习迁移一直是研究有效学习的一个重要课题,人们坚信,最好的教学能使学生学会“如何学习”,并使所学知识适应未来的情况。
我们举一个简单易懂的迁移学习的例子。世界上有两种道路系统,分别是靠左和靠右行车。比如,美国和中国内地的驾驶员位置在汽车的左侧,并且汽车要靠右行驶。而在英国、中国香港地区,驾驶位置是在汽车右侧,并且汽车靠左行驶。我住在深圳,习惯靠右行驶,但是到了香港,就不敢开车了,驾驶习惯很难转换过来。但是以后可以乘坐自动驾驶的汽车,而迁移学习就能够用在这里,可以通过找出两种驾驶中的共同特征,让自动驾驶系统自如切换。我们可以看到,无论驾驶员坐在哪一边,离道路中心线始终是最近的。这一事实能够使驾驶员将驾驶习惯顺利地从一个方向“迁移”到另一个方向。迁移学习的关键要素是寻找不同领域和任务之间的这类“不变性”。当然,实际的迁移学习要比这个任务复杂得多。
在迁移学习中,算法仍是最核心的技术,包括基于样本、特征、模型和关系的算法。每一种迁移算法分别对应不同的知识迁移载体。文本挖掘是迁移学习算法的一个很好的应用场景,可以从文本中发现有用的结构性知识并将其应用于其他领域中。例如情感分类,在线论坛、博客、社交网络等有大量用户生成的内容,能够从中总结消费者对产品和服务的看法非常重要,对于不同类型的产品、不同类型的在线网站、不同的行业,用户可能使用不同的词语表达他们具有相同情感的观点。在这种情境下,就可以用迁移学习训练出具有人类情感分类能力的机器。而当人工智能走完这最后一公里,可能就会让很多人意识到它所带来的严重威胁了。