来源:量子号
据《纽约时报》报道,2025年图灵奖授予了两位人工智能领域的先驱——安德鲁·巴托和理查德·萨顿。他们因开发强化学习技术而受到表彰,这一技术对当今包括ChatGPT在内的聊天机器人等人工智能系统起到了至关重要的作用。
马萨诸塞大学阿默斯特分校的安德鲁·巴托(Andrew Barto,左)和理查德·萨顿(Richard Sutton)的研究在当今的人工智能系统中发挥着关键作用。(图源:via Association for Computing Machinery)
早在1977年,安德鲁·巴托作为马萨诸塞大学阿默斯特分校的一名研究员,开始探索一种新理论,即神经元的行为类似于享乐主义者。其基本观点是,人类大脑由数十亿个神经细胞驱动,每个神经细胞都在努力将快乐最大化,将痛苦最小化。
一年后,另一位年轻的研究员理查德·萨顿加入了他的团队。两人共同基于这一简单概念解释了人类智能,并将其应用于人工智能领域。他们的研究成果被称为“强化学习”(Reinforcement Learning),这是一种让人工智能系统从数字世界中学习“快乐”与“痛苦”的方法。
本周三,全球最大的计算机专业协会——美国计算机协会(ACM)宣布,巴托博士和萨顿博士因其在强化学习领域的开创性研究荣获2025年图灵奖。图灵奖自1966年设立以来,一直被视为计算机科学领域的最高荣誉,被誉为“计算机界的诺贝尔奖”。这两位科学家将分享该奖项的100万美元(约合725.96万元人民币)奖金。
过去十年间,强化学习在人工智能的崛起中发挥了至关重要的作用,推动了谷歌的AlphaGo和OpenAI的ChatGPT等突破性技术的发展。这些系统的技术基础源于巴托博士和萨顿博士的研究成果。
“他们是强化学习领域无可争议的先驱,”华盛顿大学计算机科学名誉教授、艾伦人工智能研究所创始人兼首席执行官奥伦·埃齐奥尼表示。“他们提出了关键的思想,并撰写了关于该主题的经典著作。”
他们的著作《强化学习:导论》(Reinforcement Learning: An Introduction)于1998年出版,至今仍被认为是该领域的权威参考书。许多专家认为,这一思想才刚刚开始展现其潜力。
长期以来,心理学家一直在研究人类和动物如何从经验中学习。早在20世纪40年代,英国计算机科学家艾伦·图灵就曾提出,机器也可以通过类似的方式学习。
然而,巴托博士和萨顿博士进一步探索了这种学习方式的数学原理,并以政府计算机科学家A·哈里·克洛普夫提出的理论为基础展开研究。巴托博士随后在马萨诸塞大学阿默斯特分校建立了一个实验室,专注于这一领域的研究,而萨顿博士则在加拿大阿尔伯塔大学建立了类似的实验室。
“当你谈论人类和动物时,这是一个显而易见的想法,”萨顿博士说道。他目前是人工智能初创公司基恩科技(Keen Technologies)的研究科学家,同时也是加拿大三大国家人工智能实验室之一——阿尔伯塔机器智能研究所的研究员。“当我们复兴它时,它是关于机器的。”
直到2016年AlphaGo问世之前,强化学习仍然是一项学术追求。大多数专家认为,还需要10年时间才能研制出能够在围棋比赛中击败世界顶级选手的人工智能系统。
然而,在韩国首尔举行的一场比赛中,AlphaGo击败了过去十年最优秀的围棋选手李世石。其成功秘诀在于,该系统通过与自己对弈数百万盘,不断尝试和犯错来学习。它学会了哪些招式会带来成功(快乐),哪些招式会导致失败(痛苦)。
构建AlphaGo系统的谷歌团队由大卫·西尔弗领导,他曾在阿尔伯塔大学师从萨顿博士研究强化学习。
尽管如此,许多专家仍然质疑强化学习是否可以在游戏之外发挥作用。毕竟,游戏胜利通常取决于分数,这让机器很容易区分成功与失败。
但事实上,强化学习在在线聊天机器人中也发挥了重要作用。
在2022年秋天ChatGPT发布之前,OpenAI聘请了数百人使用早期版本并提供精确建议,以磨练聊天机器人的技能。他们向聊天机器人展示了如何回答特定问题,对其回答进行评分并纠正错误。通过分析这些建议,ChatGPT学会了如何成为一个更好的聊天机器人。
研究人员将这种方法称为“从人类反馈中进行强化学习”(简称RLHF),这也是当今聊天机器人能够做出令人惊讶的逼真反应的关键原因之一。
(《纽约时报》已起诉OpenAI及其合作伙伴微软侵犯与人工智能系统相关的新闻内容版权。OpenAI和微软否认了这些指控。)
最近,OpenAI和DeepSeek等公司开发了一种新的强化学习方式,使聊天机器人能够像AlphaGo一样实现自我学习。例如,通过解决各种数学问题,聊天机器人可以了解哪些方法可以得出正确答案,哪些方法不能。
如果用大量问题重复这一过程,聊天机器人就能学会模仿人类的推理方式——至少在某些方面。结果就是所谓的推理系统,比如OpenAI的o1或DeepSeek的R1。
巴托博士和萨顿博士表示,这些系统暗示了未来机器的学习方式。他们认为,最终,配备人工智能的机器人将像人类和动物一样,在现实世界中通过反复试错来学习。
“通过强化学习来学习控制身体——这是非常自然的事情,”巴托博士总结道。