吴恩达的开门大弟子 Pieter Abbeel 获 2021 年 ACM 计算奖:其是学徒学习和强化学习领域的开拓者

2022-04-08 13:41:13 浏览数 (1)

今年的计算机协会(ACM)计算奖将颁发给一位机器学习专家,即使你没有听说过他的大名,但也很可能熟悉他的工作。

Pieter Abbeel是加州大学伯克利分校的教授,还是AI机器人公司Covariant的联合创始人。他摘得了该奖项,同时获得250000美元的奖金,该奖项授予机器学习领域“研究贡献具有根本性影响和广泛影响”的杰出人士。

Abbeel是一位计算机科学和电气工程教授,他的工作已在圈内得到了相当高的认可。

Abbeel是吴恩达的第一位博士生,吴恩达当时是斯坦福大学的一年级教授。

2017年吴恩达采访Pieter Abbeel:

ACM表示,Abbeel是学徒学习和强化学习领域的开拓者,他设计的一种可折叠衣物的机器人能够更轻松自如地操纵可变形物体。他还为开发可以拼接手术缝线和检测物体轨迹的机器做出了贡献。

在职业生涯的早期阶段,Abbeel研发出了新的学徒学习技术,显著改善机器人操纵准确性。随着该领域不断成熟,研究人员能够为机器人编程,以感知和操纵木块或勺子之类的刚性物体。然而事实证明,为机器人编程以操纵布料等可变形物体很困难,因为柔软材料在触摸后变形的方式是不可预测的。Abbeel首次提出了增强机器人视觉感知、基于物理的跟踪、控制以及从演示中学习的新方法。通过结合这些新方法,Abbeel开发出了一种能够折叠毛巾和衬衫等衣物的机器人,对现有技术作了重大改进,这在当时被认为是重大的里程碑事件。

Abbeel的贡献还包括研发可以进行手术缝合、检测物体并在不确定的情形下规划物体轨迹的机器人。最近,他开创了“小样本模仿学习”的先河,机器人在针对相关任务用一大堆的演示加以预训练后,仅凭借一次演示就能够学习执行任务。

ACM表示,Abbeel做出重大贡献的另一个特别有前途的领域是面向机器人的深度强化学习。强化学习是机器学习的一个领域,其中代理(比如计算机程序)力求获得奖励(比如赢得比赛)。虽然早期的强化学习计划很有效,但它们只能执行简单的任务。结合强化学习与深度神经网络这一创新举措,开创了深度强化学习这个新领域,因而可以解决比单独使用强化学习开发的计算机程序复杂得多的问题。

Abbeel在这个领域的关键突破性贡献是开发出了一种名为置信区策略优化(TRPO)的深度强化学习方法。这种方法使强化学习过程实现了稳定,使机器人能够学习一系列模拟的控制技能。通过分享研究结果、发布视频教程以及发布来自其实验室的开源代码,Abbeel帮助建立了一个研究人员社区,该社区从此进一步推动了面向机器人技术的深度学习,机器人因而可以执行越来越复杂的任务。

Abbeel还做出了另外几项开创性贡献,包括如下:广义优势估计,因此首次实现了3D机器人运动学习;柔性致动/评价(soft-actor critic),这是迄今为止最流行的深度强化学习算法之一;领域随机化,展示了通过适当随机化的模拟器进行的学习如何能够非常好地推广到现实世界;以及事后经验复盘(HER),这对于稀疏奖励/面向目标的环境中的深度强化学习意义重大。

Abbeel创办的公司Covariant也取得了重大突破,包括在2020年开发出了一种能够比人更快地对设备进行分拣整理的机械臂。

深度强化学习使AI能够以更少的先验知识更快地学习,因为它能够更有效地从抽象的非结构化数据中学习。该方法被用于一些备受瞩目的应用,比如学习在下围棋、国际象棋和玩扑克等方面击败人类,以及涉及改进社交媒体通知和训练自动驾驶汽车的其他应用。

但深度强化学习也被一些人认为是机器学习的一种范式,是一种无法精确地复制现实的不切实际的方法。

谷歌软件工程师Alex Irpan在2018年撰文道,深度强化学习的特点是需要大量的数据来生成结果,这也是它的致命缺点,深度强化学习在实际应用中可能不具有优势。

0 人点赞