编辑 | TGS 发布 | ATYUN订阅号
强化学习代理,是一种通过奖励或惩罚机制逐步刺激目标实现的人工智能——它构成了自动驾驶汽车、灵巧机器人和药物发现系统的基础。但是因为它们倾向于探索不熟悉的状态,所以它们会很容易受到所谓的安全探索问题的影响,在这个问题上,他们会变得专注于不安全的状态(比如,一个移动机器人把车开进了沟里)。
为此,Alphabet旗下DeepMind的研究人员在一篇论文中描述了一种奖励建模方法,该方法分两个阶段进行,适用于代理人不知道不安全状态可能在哪里的环境。研究人员表示,他们的方法不仅成功地训练了一个奖励模型,在不访问不安全状态的情况下检测它们,还可以在代理部署之前纠正奖励黑客行为(奖励规范中的漏洞)——甚至是在新的,以及不熟悉的环境中,完成这一机制运行。
DeepMind团队的方法鼓励代理通过两个系统生成的假设行为探索一系列状态:初始状态的生成模型和前向动力学模型,这两个模型都是根据随机轨迹或安全专家演示等数据进行训练的。
一个人类主管用奖励来奖励行为,并且代理人交互地学习政策以最大化他们的奖励。只有当代理成功地学会预测奖励和不安全状态之后,他们才能部署以执行所需的任务。正如研究人员所指出的,关键的想法是,在不与环境直接互动的情况下,对假设的行为从无到有地进行积极的综合,使它们尽可能地提供信息。
DeepMind团队称其为“通过轨迹优化的奖励查询合成”,或者“请求”,并解释说它总共产生了四种类型的假设行为。第一种类型最大化了奖励模型集合的不确定性,而第二种和第三种类型最大化了预期奖励(为具有最高信息价值的行为获取标签)并最小化预期奖励(为奖励模型可能错误预测的行为提供解释)。对于第四类行为,它最大化了轨迹的新颖性,从而鼓励探索而不考虑预测的奖励。
最后,一旦奖励模型达到一个令人满意的状态,就会部署一个基于计划的代理——该代理利用模型预测控制来选择为学习奖励优化的操作。与通过尝试和错误学习的无模型强化学习算法不同,这种MPC使代理通过使用动态模型来预测动作的后果来避免不安全状态。
论文最后,论文合著者们表示:“据我们所知,ReQueST是第一个安全学习不安全状态和尺度的奖励建模算法,用于在高维连续状态的环境中训练神经网络奖励模型。到目前为止,我们只证明了在相对简单的动态模拟域中请求的有效性。未来工作的一个方向是,用更真实的物理和环境中的其他代理,在3D领域测试请求。”