马斯克、贝索斯和扎克伯格都投资的这家AI公司实现零数据迁移学习

2018-03-28 10:19:26 浏览数 (1)

【新智元导读】Vicarious 是一家很神秘的 AI 初创公司,马斯克、贝索斯和扎克伯格都有投资。因为迟迟不出产品,却屡次在 NIPS、CVPR 这类顶会发表论文,被外媒称为“比起公司更像是研究所”的 Vicarious,在 ICML 2017 也发表了论文,提出了能够从有限的数据中泛化并学习因果关系的通用游戏攻略模型“模式网络”。Vicarious 研究人员表示,这是构成智能系统的重要因素。

初创公司 Vicarious 的使命是“建立下一代人工智能算法”。和 DeepMind 一样,Vicarious 的目标也是长期的。不仅如此,Vicarious 的投资者中不乏传奇人物,包括特斯拉的 Elon Musk,亚马逊的 Jeff Bezos,美国著名技术投资人 Peter Thiel,还有 Facebook 的 Mark Zuckerberg。

如果说 DeepMind 致力于长期基础 AI 研究,那么 Vicarious 则更是如此。多次有外媒评价 Vicarious 不像公司,更像研究所。自成立以来,Vicarious 不急不躁,不出具体的产品,但在 CVPR、NIPS 这样的 AI 相关顶会上都提交并且发表了论文。

根据《福布斯》的报道,Vicarious 的联合创始人 Scott Phoenix 认为这家公司可以贡献的最大价值是长期的,以通用人工智能(AGI)或人类智能的形式存在。同时,Phoenix 也相信会有很多其他的价值在他们创造 AGI 的过程中伴随产生。Phoenix 是一位资深的企业家,担任过 Frogmetrics 公司的 CEO,该公司属于 2008 年 Y Combinator 孵化的 AI 公司。在去年接受《福布斯》采访时,Phoenix 描述了 Vicarious 的目标——当时团队拥有 30 人——创造拥有想象力,能即兴发挥的 AI。

在即将召开的机器学习顶会 ICML 2017 上,Vicarious 也有一篇论文被接收。这也是他们继 NIPS-16、CVPR-16 之后,在学术顶会发表的第 3 篇论文。在论文中,Vicarious 研究人员提出了一种策略网络 Schema Network,能够从有限的数据中泛化,并且学习因果关系。

真正智能的表现:智能体能够理解游戏的概念性规则

人在玩新游戏的时候,首先会对游戏进行概念性的理解。假设你第一次看到像 Breakout 这样的游戏(见下)。经过几秒钟的观察,你就能根据以前的经验去诠释这款游戏。你可能会将图中移动的红色像素视为在“侧壁”上“弹跳”的“球”,并且发现下面有一块移动的“板”。你会知道,板能够让球反弹。你会观察到,当球撞到顶部的“砖”时,这些砖会消失……总之,不出的简单几帧,你就有很大的可能明白这款游戏在做什么。

理解世界的因果关系是人类智能的标志之一。正是这种能力使我们能够通过迁移(transfer)我们在其他地方获得的概念知识,快速了解新的情况,比如理解从未见过的视频游戏。

那么,问题来了——深度强化学习智能体是否理解了相关的概念、原因和结果呢?

一些看似“智能”的表现,只是简单的应激反应

为了弄清楚这一点,Vicarious 的研究人员使用 Asynchronous Advantage Actor-Critic(A3C)深度强化学习方法训练智能体玩 Breakout 游戏,最初表现很好(参见上图)。

按理说,如果智能体理解了这款游戏,理解了球、墙、砖、板之间相互作用的因果关系,那么一些微小的变化,比如将底部的板提高一点,或者额外加一块侧墙,应该不会影响智能体玩游戏的水平。

下图显示了同样的 A3C 智能体在 3 种稍微经过变化的环境中玩 Breakout 的情况。

A3C 智能体在 3 种变化的情况下玩 Breakout,表现欠佳。

很显然,A3C 智能体无法适应环境。

Vicarious 研究人员指出,这是因为 A3C 和其他深度强化学习智能体,都是将输入像素映射到动作(比如向左或向右移动),通过不断试错进行学习。A3C 智能体学会了一定的策略,但并没有对游戏动态或规则产生概念性的理解。这种深度强化学习也被称为无模型学习,智能体没有形成对世界进行预测的因果模型。

换句话说,一些常被人视为“智能”的深度强化学习行为,不过只是依赖简单线索产生的应激反应而已。

而 Vicarious 这次在 ICML 2017 提出的模式网络 Schema Network,则是一种基于模型的强化学习方法。Vicarious 研究人员表示,Schema Network 展现出了一些很强的泛化能力,这样的泛化能力一般被视为人类水平智能的关键要素。

模式网络 Schema Network,通用的游戏攻略模型

Vicarious 研究人员使用一个像 Breakout 这样的游戏,展示了 Schema Network 从一个变量的概念,迁移到另一个变量概念的能力。

Schema Network 依赖于实体状态的输入而不是原始图像的输入。本质上说,“实体”可以是任何可跟踪的图像特征,最常见的包括物体,以及物体的边缘和表面。Vicarious 的研究人员假设视觉系统负责从图像中检测和跟踪实体,他们使用 Garnelo 等人在 2016 年的工作,通过自编码器,以无监督的方式从 Atari 视频游戏中提取实体。

Schema Network 在学习有关世界的知识时,是通过一小段一小段的图模型片段学习的,这些图模型片段也被称为 schema(模式)。Schema 代表了网络学到的实体(名词)、实体的属性(形容词)和实体之间的交互(动词)。在新的情况下,适当的知识片段会自动实例化,也即生成概率图模型(PGM),让网络了解情况,从而指导智能体在游戏中取得成功。此外,规划可以被看作推理问题,并通过有效的 PGM 推理算法来解决。

Schema 是构成 Schema Network 的核心基础要素。Schema 描述了实体属性的未来值以怎样的方式取决于该实体的属性和其他附近可能存在的实体当前的值。每个 schema 都可以看作一个预测变量。这些预测变量将从数据中自动学习。

举例说,一个 schema 可能会决定在 Breakout 中,球的速度将在下一帧中根据其当前速度和砖的相对位置发生改变。另一个 schema 可能会预测当玩家采取“向左移动”的动作时,板会向左移动,而且板的左侧有可以移动的空间。

Schema 还可以预测奖励、创建实体和删除实体。Schema 产生的表征能让网络自动进行前向和后向的因果推理。

Schema Network 很好地适应了环境,在 3 种变化的情况下玩 Breakout。

Schema Network 完全由一组 schema 表征。因此,模型是高度可解释的。仔细考察每个 schema 能够了解这个 schema 对上下游的直接影响。Schema Network 相当于一个因子图(factor graph),因此可以使用不同的概率推理算法来预测,根据未来状态和当前状态会有怎样的奖励。因为模型是生成模型,相同的算法还可以用于从目标状态向后推理。

Vicarious 研究人员在他们的 ICML 论文中,展示了如何使用 Max-Product Belief Propagation (MPBP)有效找到 Breakout 中可以获得的奖励。

Schema Network 在其他类型的游戏,比如 Sapce Invaders(见上图)和 Sokoban(迷宫推箱子,详见视频)上也获得了很好的结果。与 Breakout 相比,Sapce Invaders 涉及到许多不同的机制,包括频繁创建物体(子弹),敌人的行为存在固有的随机性。

Sokoban 的特点则是奖励极为少见而且不平均,在任何位置上要得分,都需要对物体在更长的时间范围内的交互情况做出推测。Sokoban 这类的规划问题对于人工智能和人类智能都是很具挑战性的。

论文介绍:模式网络

摘要

最近以深度神经网络为基础的方法在强化学习与编程(planning)方面取得了显著进展。然而,从任务到任务迁移的进展仍然有限。为了追求高效和强大的泛化性能,我们引入了 Schema Network,一个面向物体生成的物理模拟器,能够分析事件的多种原因,并通过因果推理实现目标。Schema Network 有多种结构组成,可以直接从数据输入学习了解一个动态环境。我们将 Schema Network 与 A3C 网络进行了比较,在一系列不同的 Breakout 游戏设置中,报告了 Schema Network 的训练效率和 zero-shot 泛化的结果。Schema Network 展示出更快、更强大的学习能力和更好的迁移性能。我们认为,从有限的数据中泛化和学习因果关系,是通用智能系统的重要能力。

视频内容

论文地址:https://arxiv.org/pdf/1706.04317.pdf

编译来源:https://www.vicarious.com/general-game-playing-with-schema-networks.html

0 人点赞