当地时间3月5日,美国计算机学会宣布,安德鲁·巴托和理查德·萨顿获得 2024 年 ACM A.M. 图灵奖,以表彰他们在强化学习方向的研究。
据了解,自 20 世纪 80 年代起,巴托和萨顿在一系列论文中提出了强化学习的核心思想、构建了数学基础并开发了重要算法,使其成为创建智能系统的关键方法之一。
获奖后,“强化学习之父”萨顿在采访中探讨了AI的发展进程,同时给予了青年研究员们一些个人建议。
当被主持人问道AI领域智能愿景,在这么多年即将要实现,是不是特别激动时。
萨顿坦然表示:没错,但也不尽然,我并不认同“一切都能迅速地大功告成”的观点。
他继续补充道:AI确实已经取得巨大进展,但我不认可那种急于求成的心态。
“我认为这是一场马拉松,而非短跑冲刺,前面的路还很长,AI最伟大、最具影响力的那些方面尚未到来。”
随后,主持人又问到了其对于研究者,尤其是年轻的研究者的建议。
萨顿认为:“跑马拉松”挺不容易的,保持动力也不简单,我的建议是,要志存高远,但别骄傲自满!”
说到这一点,他与主持人相视哈哈大笑。
随后,他继续补充道:我始终敬佩年轻人不盲从权威的态度,因为没有人能独断AI的发展方向,在科学领域不存在所谓的权威,这就赋予了任何人的能力和权力。
同时,萨顿谦逊强调:这也许令人有些失落,因为你或许曾视我为权威,而我本可利用这一名号,但我必须坦诚,我不能。
众所周知,ACM A.M. 图灵奖素有 “计算机界诺贝尔奖” 之称,以英国数学家艾伦·图灵(Alan Turing)命名,他奠定了计算的数学基础,通常被认为是理论计算机科学和人工智能的创始人。
另外,该奖从1966年开始颁发,2014年起奖金为 100 万美元,由谷歌公司提供。
在这里,特别强调一下什么是“强化学习”?
人工智能(AI)领域关注构建智能体,即能感知与行动的实际存在,而更智能的智能体现在其能选择更优的行动方案。因此,“某些行动优于其他”的概念是 AI 的核心。
奖励(reward,源于心理学与神经科学的术语)表示提供给智能体与其实际行为质量相关的信号。
强化学习(RL) 则是通过奖励信号学习更成功行为的过程。
20 世纪 80 年代初,受心理学启发,巴托与博士生萨顿开始将强化学习定义为通用问题框架。
在此后的数十年间,巴托和萨顿与其他研究人员共同开发了强化学习的许多基本算法。
比如,他们二人编写的经典教材《强化学习:导论》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 万次,至今仍是该领域标准参考资料。
在这本书的影响下,成千上万的研究者能够理解并参与到这个新兴领域,并继续激发今天计算机科学领域的大量重要创新。
尽管巴托和萨顿的算法诞生于数十年前,但其与深度学习算法的结合(由2018年图灵奖获得者Bengio、Hinton和LeCun开创),从而导致了深度强化学习的出现,并在过去 15 年取得多项重大突破。
最突出的例子是 AlphaGo 程序在 2016 年和 2017 年战胜了最优秀的人类围棋选手。最近一项重大成就则是聊天机器人 ChatGPT 的开发。