3月5日,安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)因 在 强 化 学 习(Reinforcement Learning)领域的开创性贡献而获得了今年的图灵奖。在历经多年争议之后,强化学习终于重新获得了主流学界的认可。借此机会,就让我们花点时间来聊聊这个支撑GPT、DeepSeek等大模型成功的重要理论,回顾一下它的发展历程。
早年岁月
在展开讨论之前,我们需要对强化学习的基本概念做一个简要介绍。简而言之,强化学习是机器学习的一个重要分支,其核心思想是让智能体通过不断与环境交互,并根据所获得的回报来调整策略,从而实现学习。从本质上看,它与我们熟悉的监督学习(Supervised Learning)有显著区别。如果说监督学习是给小朋友一堆贴好标签的水果图片,教他们识别水果;那么强化学习则是给小朋友一张水果图片,让他们猜名字,答对了就给糖吃,通过这种激励机制训练他们识别水果。
在计算机与人工智能的发展历史中,强化学习的思想至少可以追溯到图灵(Alan Turing)。早在1950年,他就提出过一种基于奖惩机制的机器学习方法。而若将视野拓宽至更广阔的认知和心理学领域,强化学习显然也深受斯金纳(B.F. Skinner)的操作性条件反射理论和赫布(Donald Hebb)的学习机制影响。
(1)明斯基的物理神经网络
1951年,人工智能奠基人马文·明斯基在普林斯顿大学攻读博士期间,受到赫布“用进废退”的神经连接理论启发,亲自搭建了一个模拟神经元学习的物理装置——SNARC(随机神经模拟强化计算器)。它由300多个真空管和数百个电子元件构成,具备40多个神经元,可接收输入、处理信号并输出结果,模拟生物神经元的行为。神经元之间的连接强度可根据外部“奖励”信号动态调整,正向反馈增强连接,负向反馈则减弱。
明斯基利用SNARC解决了“老鼠走迷宫”问题,让系统通过反复试错学会在迷宫中找到出口。这是强化学习机制在硬件层面的早期实现,也是历史上最早的神经网络实例之一。讽刺的是,明斯基此后转向符号主义,认为逻辑推理比神经网络更具潜力,并在之后几十年间排斥后者,致使神经网络研究长期停滞。究其原因,或许是他对当时神经网络在技术上的性能上限有更清晰的认知。
(2)电脑上的自组织模型
随着计算机的发展,研究者开始尝试在虚拟环境中模拟神经网络。1954年,法利和克拉克在IBM 701商用计算机上构建了一个由128个神经元组成的网络,利用强化学习式的反馈机制进行训练。成功的响应增强连接权重,错误则减弱,实现了神经元连接的自我调整。这一尝试验证了在计算机上实现强化学习的可行性,是该领域技术演化中的关键一步。
尽管模型本身较为初级,但它开启了强化学习从物理装置向程序模型过渡的可能性。遗憾的是,法利与克拉克很快将研究重心转向监督学习,未在强化学习领域持续深耕,后续影响相对有限。
(3)萨缪尔的跳棋程序
与明斯基和法利偏向隐式神经连接调整的方式不同,IBM研究员阿瑟·萨缪尔开创性地提出了更显式的强化学习模型。他选用跳棋作为实验平台,设计了一个可评估棋局优劣的函数,输入包括棋子数量差、王棋数、可移动性等特征,并通过线性加权生成得分。AI可依此评估当前局势,并利用极大极小法进行策略决策。
萨缪尔开发了两种学习方式:其一是近似监督学习,借助回放棋局结果进行参数调整;其二是强化学习方法,根据当前状态与下一状态之间的评分差异来动态修正预测。这一设计极大提升了程序的自我改进能力。
1956年,该程序在电视上挑战康涅狄格州跳棋冠军罗伯特·尼利虽败犹荣,1962年再战成功击败对手,标志着AI系统首次在复杂任务中击败人类专家,也成为强化学习的标志性成果。萨缪尔还将“机器学习”(machine learning)一词带入公众视野,在AI普及上功不可没。
师徒俩的贡献
20世纪50至70年代,强化学习的实践虽频繁,但多停留在神经机制的模拟层面,缺乏系统性的理论探索。直到20世纪80年代,强化学习才迎来真正的理论奠基者——安德鲁·巴托(Andrew Barto) 与理查德·萨顿(Richard Sutton)这对师徒。
巴托原本在密歇根大学主修造船工程,后受阿比卜、麦克库洛赫等人“用计算机模拟大脑”思想吸引,转攻数学与计算机科学,并师从遗传算法创始人霍兰德完成博士学位。1975年毕业后,他前往MIT从事博士后研究,并获得教职,主讲《人工智能》课程中关于神经网络的部分。尽管课程内容偏重脑科学,令许多学生困惑,却深深吸引了当时正在攻读博士的萨顿。
萨顿1961年生于美国伊利诺伊州,本科在斯坦福大学主修心理学。其间,他受到哈里·克洛普夫“奖赏驱动学习”理论的启发,认为机器智能应来源于试错与激励机制。毕业后进入MIT深造,遇见了理念相投的巴托,两人一拍即合,决定携手推进强化学习的理论化进程。
在随后的合作中,萨顿负责提出创新构想,巴托则以扎实的数理功底将其形式化为可操作的数学模型。他们共同发表了大量开创性论文,提出了时序差分学习、演员—评论家模型等核心理论,奠定了强化学习作为一门独立学科的理论基石。
(1)时序差分学习
巴托和萨顿合作的第一个重要成果是著名的“时序差分学习”(Temporal Difference Learning,简称TD)理论。尽管这个名字听上去颇为“高大上”,其核心思想其实并不复杂。简单来说,TD的基本机制是:通过当前状态的价值估计与下一状态的价值估计之间的“差分”,来逐步更新对策略或预测值的估计。
我们可以用“登山”来类比解释TD理论的思路:
假设我们面对一座高山,有多条路径通向山顶。任务是找出一条耗时最少的路线。但我们既未爬过此山,也没有地图,那么如何做出判断呢?一种最朴素的方法是,沿着每一条路径分别走一遍,记录登顶所用时间。每尝试一条新路线,就与已有最佳耗时对比,如果更快就替换原先的选择。最终,就能找到最优路径。
这种方法体现了最直观的强化学习机制:根据执行策略后得到的“价值”反馈,调整策略以优化结果。选择哪条路径就是策略,而登顶所用时间即该策略的价值。
不过,在现实中,人们往往不会采用这种“跑完全程再比较”的方式,而是会边走边观察。走了一段时间,若发现进展缓慢,便会考虑返回或换路。这种“即时评估”方式,就是根据每一步所获得的“奖励”进行反馈调整。此处,每一小段距离的前进效果就相当于一个即时奖励。
但这依然不够精细。现实中经常有“前期艰难、后劲十足”的路径。若仅看局部表现,可能会错判整体价值。因此,更合理的方式是:在评估当前表现的同时,也要对未来走势进行预估——这正是TD算法的本质:用当前状态与下一状态的价值函数的“差分”来优化策略。
细心读者会注意到,实际上萨缪尔的跳棋程序中已经隐含使用了TD思想:它通过比较当前棋局与下一步棋局的局势评分,来调整策略。不过,萨缪尔更多是依靠直觉经验,缺乏对该机制的理论总结。而巴托与萨顿则系统性地将这一思路与数学中的“动态规划”方法相结合,明确提出了TD的数学框架。他们还借用统计学中的“自举法”(Bootstrapping),来在缺乏最终结果时,估算各个状态的价值函数,从而使TD成为一个可精确描述、可通用解答的学习模型。
在TD算法中,一个关键问题是:如何权衡短期与长期回报。为此,巴托和萨顿引入了参数λ(Lambda)来控制这种权衡:当λ为0时,算法只关注即时奖励;当λ为1时,则等同于累积所有回报的“全轨迹”方法。在实际应用中,λ值可根据任务需求灵活设定,从而平衡学习速度与精度。
值得一提的是,正因两位作者都深受脑科学影响,他们特别强调TD学习与动物大脑中的“奖赏预测误差”(Reward Prediction Error)机制之间的相似性。这个观点后来启发了关于多巴胺神经元如何编码预测误差的理论,并最终在神经科学实验中获得验证。这一成果也被视为人工智能理论反哺神经科学研究的经典案例之一。
(2)演员—评论家模型
巴托和萨顿的第二个重要贡献是“演员—评论家”(Actor-Critic)结构。顾名思义,这种结构将学习过程中涉及的策略变量与价值函数分别交由两个模块进行建模和训练。其中,“演员”模型负责策略的选择,即决定在特定状态下采取何种动作;而“评论家”模型则负责评估不同状态的价值函数,并为“演员”提供反馈。通过这种任务分工,训练过程可以变得更加稳定,效率也显著提高。
我们依然可以用“登山”来打个比方。在之前的例子中,登山者需要边走边选路,同时还要评估路径的优劣,这显然是个负担极重的任务。为了减轻负担,可以安排两人结伴登山:一个人专注于选路(即“演员”),另一个人则一路观察、记录、评价所走路线的表现(即“评论家”)。两人配合,就可以高效地完成原本一人承担的任务,从而更快更稳地找到最佳路径。
由于“演员—评论家”模型思路清晰、实现相对简便,自巴托和萨顿在20世纪80年代初提出这一结构以来,它迅速成为强化学习中最常用的训练架构之一。随着研究的深入,后来的学者在此基础上发展出了许多变体,以适应更复杂的任务场景。例如,OpenAI在训练ChatGPT时所使用的“近端策略优化”(Proximal Policy Optimization,简称PPO)算法,本质上就是一种“演员—评论家”结构的改进版本。
需要特别指出的是,除了提出一系列重要算法之外,巴托和萨顿对强化学习的另一个重大贡献,是合著了该领域最具影响力的教科书之一——《强化学习:导论》。这本书于1998年首次出版,即使在今天仍被全球众多研究者视为必须研读的“圣经”,其地位至今无人撼动。
神奇的Q学习算法
在巴托和萨顿奠定了强化学习的理论基础之后,越来越多的研究者加入这一领域,并为其发展贡献了诸多新的算法。在这些贡献中,最重要的里程碑之一,可能就是沃特金斯(ChristopherJ.C.H.Watkins)于1989年提出的Q学习(Q-Learning)算法。
从理论渊源上看,Q学习算法的核心思想来自动态规划中的经典工具——贝尔曼方程(Bellman Equation)。这一方程的基本思路是:在处理规划问题时,可以将总价值函数拆分为当前回报和未来价值两部分的加和。
为了更好地理解这个思想,我们仍然借用“行路”的比喻。设想一个人要从甲地前往乙地,他面前有多条路线可供选择。每条路上都有许多路口,每个路口又分出不同的岔道,需要逐一抉择。在不知全貌的情况下,要准确选出一条最短路径几乎是不可能的。但他可以采用“分步”策略:先选一条路走到下一个路口,然后再从这个路口考虑如何走到终点。如此反复,每一个路口的最短路径都可以通过“当前这一步”加上“后续最短路径”来递推得到。最终,从终点反向推导,就可以构建出从任意位置到终点的最短路径图。
当然,上述分析隐含了一个前提:行路人手中有地图,可以掌握所有路口和路径的信息。而在强化学习的问题中,情况显然并非如此——智能体一开始并不知道环境的全貌,也没有“地图”可以查阅。那么在没有地图的前提下,怎么“推”出最短路径呢?这,正是Q学习要解决的核心问题。
Q学习沿用了贝尔曼方程的分解思想:它将某个状态下采取某个动作的“质量”(Quality,即Q学习中“Q”的来源)拆解为两个部分:该动作当前可获得的奖励,以及未来可能获得的总价值。虽然未来的价值无法提前知道,但可以根据经验不断进行估计并动态更新。随着学习的深入,估计值逐步趋近真实值。这样,智能体便可以在每一步根据当前状态下不同动作的Q值进行选择,从而最终找到最优策略。
换言之,Q学习就是在“没有地图”的条件下,通过试错经验,一点一点“画”出这张地图。
我们可以把这个过程想象成行路人探索路径的过程:虽然起初没有地图,但他可以从一个路口出发,走一段路,记录这段路的长度和路况,然后根据经验评估从下一个路口到终点的距离。每走过一段路,他的判断就更准确一些。当他积累了足够多的经验后,就能大致判断出哪条路径最短。
沃特金斯提出Q学习之后,巴托与萨顿对这一算法给予高度评价。他们在合著的经典教科书中不仅对Q学习进行了系统讲解,还提供了大量应用实例。借助这两位重量级人物的影响力与推广,Q学习很快成为强化学习领域最广为人知的算法之一。特别是在解决马尔可夫决策过程(Markov Decision Process,简称MDP)问题时,Q学习已成为标准的求解方法。
近年来,互联网上还盛传OpenAI正在进行一个代号为“Q-Star”的神秘项目,目标是打造超越人类的自主智能系统。尽管OpenAI高层如山姆·奥特曼(Sam Altman)始终对这一项目的细节守口如瓶,但据传其核心思想正是基于Q学习算法来强化AI的决策能力。虽然这一传言尚无确凿证据,但从技术角度来看,利用Q学习来训练AI在不确定环境中的决策能力,的确是一个合理且成熟的方向。
当深度学习遇上强化学习
在强化学习发展的早期,该领域的研究者在建模时主要采用表格方法(Tabular Methods)和线性函数逼近(Linear Function Approximation)。除了个别案例(如杰拉尔德·特索罗开发的西洋双跳棋程序)之外,多数研究者通常会选择线性模型,或仅使用单层神经网络来表示策略函数和价值函数,并以此进行学习。这种模型上的简化,在很大程度上限制了强化学习性能的提升。
需要指出的是,研究者之所以采用这样的简化策略,并非出于智识上的局限,而是当时技术条件的现实制约。在很早以前,人们其实就已经认识到:在相同参数规模下,多层神经网络往往比单层神经网络拥有更强的表达能力。巴托和萨顿也在其经典教科书中明确讨论过多层网络在建模上的优势。但在当时的算力条件下,要训练一个深层网络几乎是天方夜谭。正因为如此,研究者才不得不退而求其次,采用更为“轻量级”的建模手段。
进入21世纪以后,计算机软硬件技术突飞猛进,尤其是GPU的广泛应用,大幅降低了多层神经网络的训练成本。从2006年起,辛顿(Geoffrey Hinton)及其学生发表了一系列深度网络训练的关键论文。2012年,他们更是在“ImageNet大规模视觉识别竞赛”(ILSVRC)上以压倒性优势夺冠,首次向业界展示了“深度学习”的真正威力。从此,深度学习革命全面开启,多层神经网络也迅速成为机器学习的主流建模方法。
深度学习的浪潮很快也席卷到了强化学习领域。2013年,DeepMind的弗拉基米尔·姆尼赫(Volodymyr Mnih)等人首次将卷积神经网络(CNN)与Q学习相结合,用CNN来逼近Q函数,这一结合产出了著名的深度Q网络(DeepQ-Network,简称 DQN)。实验结果表明,CNN作为Q函数的逼近器,显著提高了模型在高维状态空间中的泛化与表达能力,大幅提升了强化学习的性能。
为了验证DQN的能力,研究者让它代替人类去玩雅达利(Atari)公司的经典游戏。他们一共选用了49款游戏作为测试场景,每个游戏中,AI都直接将像素图像作为输入,游戏得分作为反馈信号,通过DQN进行学习。结果显示,在多数游戏中,DQN的表现达到了甚至超越了人类水平。例如,在《打砖块》中,AI可以精准地掌控击球方向,而在《乒乓球》中,它会自学出极具策略性的回球方式。
DQN展现了深度学习与强化学习结合的强大力量,自此“深度强化学习”迅速成为AI领域的显学。大量研究者蜂拥而入,先后提出了DDPG、A3C、PPO等一系列重要的算法框架,理论成果如雨后春笋般涌现。
不过,真正让大众见识到深度强化学习“力量”的,是一场划时代的围棋大战。2016年,Google Deep Mind主办了一场特别的人机对弈赛——人类代表是以“神之一手”著称的世界冠军李世石,而AI代表则是他们开发的围棋程序AlphaGo。
在此之前,AI战胜人类顶尖棋手并非首例——跳棋冠军罗伯特·尼利、国际象棋冠军卡斯帕罗夫(GarryKas parov)都曾在AI面前败下阵来。但围棋的策略空间远远超过象棋与跳棋,其复杂度甚至超出了人类可计算的范畴。围棋中无法简单套用规则或博弈论模型来保底获胜,因此,AlphaGo若能胜出,将标志着AI在真正意义上掌握了高水平智能策略。
原本外界普遍预期这场比赛将十分胶着,但出乎所有人意料,AlphaGo以压倒性优势取得胜利。在五局比赛中,它赢下四局,李世石仅在第四局扳回一城。结果一出,震惊全球。
AlphaGo的成功秘诀何在?从模型结构来看,它采用了深度神经网络来逼近策略函数和价值函数。在训练流程上,它首先通过监督学习学习了大量人类棋谱,从中掌握了经典套路和落子思维;接着,它通过与自身对弈的方式(即“自我博弈”),进行大规模的强化学习训练。在这种“左右互搏”过程中,它不断修正策略,最终棋艺超越人类顶尖高手。
尽管AlphaGo战胜了李世石,但仍有不少人不以为然。一些评论认为它只是记住了更多的棋谱和战术,归根结底不过是“人类经验的堆叠”,并未体现AI的真正智能。
然而,这种观点很快就被现实“打脸”。不久之后,DeepMind发布了新一代的围棋AI程序——AlphaZero。与AlphaGo不同,AlphaZero完全没有接触过人类棋谱,它的全部训练过程仅基于围棋的基本规则,然后通过纯粹的自我对弈进行强化学习。最初,它的落子几乎是随机的,但随着学习的深入,其棋艺迅猛增长,并最终以压倒性优势击败了AlphaGo。
更令人惊叹的是,AlphaZero的强化学习思路极具通用性。与AlphaGo只能用于围棋不同,AlphaZero可以快速适应多种规则系统。很快,DeepMind就将这套思路迁移到了生命科学领域,开发出用于蛋白质结构预测AlphaFold,又打造出了专门玩《星际争霸》的AlphaStar。
尾声
需要指出的是,强化学习并没有因为AlphaZero的成功而一举登上巅峰。恰恰相反,不久之后,它的声誉反而迅速跌入了谷底。这一转变的原因,并不在于强化学习本身能力的不足,而在于随着算力和数据资源的持续丰富,监督学习的优势被进一步释放。尤其是大语言模型的崛起,以及所谓的“规模定律”(Scaling Law)的发现,让“不断放大模型规模”几乎成为了提升AI性能的公认捷径。
在这样的背景下,强化学习虽仍具有独特价值,却在“规模定律”的光芒下显得黯然失色。一时间,很多资深的人工智能学者都对它的前景表示不看好。例如,“深度学习之父”辛顿(Geoffrey Hinton)就曾半开玩笑地说:“我们应该把强化学习排除在机器学习之外。作为机器学习的第三种范式(前两种是监督学习和无监督学习),它似乎并不太有效。”
面对这些质疑,强化学习的奠基人之一萨顿并未退缩。他与AlphaGo系列的主要负责人大卫·希尔弗(David Silver)一起发表了一篇论文,题为《Reward is Enough》(“有奖励就足够了”)。显然,这个标题本身就已经传达了一种坚定的立场和信念。
事实证明,萨顿对强化学习的信心并非毫无依据。只不过,就连他自己大概也未曾预料到,拯救强化学习声誉的,竟然会是一股来自东方的力量。
2025年1月,DeepSeek发布了 R1版本。这款模型一经面世,便凭借与国际顶尖大模型比肩的能力赢得了全球用户的青睐。更令业界震惊的是,它的训练与运行成本远低于同类模型,性价比之高被许多观察者称为“不可思议”。
DeepSeek究竟是如何做到这一点的?一个重要原因就在于:它在训练过程中大量应用了强化学习。它不仅在长链思维任务中完全摒弃了传统的有监督微调方式,转而全面采用强化学习方法,还创新性地提出了“群体相对策略优化”(Group Relative Policy Optimization,简称 GRPO)算法,以取代主流的PPO(Proximal Policy Optimization)方法。这一系列策略上的突破,不仅让DeepSeek成为中国AI能力的集大成者,也向世界再一次展示了强化学习的强大生命力。
值得一提的是,DeepSeek成功之后,关于其训练过程也衍生出了不少传说。其中一个流行的说法是:之所以他们能放弃成熟的PPO而自创GRPO,是因为团队中一位关键成员此前并未系统学习过强化学习,而是在摸索中不断试错,最后“误打误撞”地发明了这一新算法。这个故事真假难辨,但若其属实,倒也颇具象征意义——一个没有参考经验、完全依赖探索与反馈进行学习和优化的过程,本身就是对强化学习精神的完美诠释。