业界 | Facebook：不会“犯错”的机器人，不是“聪明”的机器人

在人们意识当中，机器人按照开发者的意愿而做出指定的动作似乎是一件理所应当的事，而且，机器人完成任务还要做到精准、迅速。然而，Facbook 的研究人员却不走寻常路，他们有意让机器人“犯错误”，这到底是为什么呢？

让我们一起来看看吧。

“明知故犯”是“智”也

在 Facebook 位于硅谷的新实验室里，有一个叫作 Sawyer 的机器人（来自已经倒闭的 Rethink Robotics 公司），它红黑相间的手臂挥舞着，试图完成研究人员交给它的任务。

按照指令，Sawyer 的手臂应该移动到右边一处固定位置，然而，Sawyer 把手臂抬高，然后偏离轨道，错开了指定位置，重新回到了原点；研究人员只好将 Sawyer 重置，让它继续完成之前的任务。这一次，Sawyer 的手臂确实往右移了，但就在非常接近指定位置的时候，它再一次偏离了运动轨道，回到了起始位置。两次任务都失败了。

或许有人会觉得 Sawyer 的“顽劣”行为令人抓狂。但就像兔子为了躲避猎鹰而迂回前进一样，Sawyer 看似笨拙的行为实际上是一种特殊的聪明。

Facebook 认为，无论是对于机器人的开发，还是 AI 的开发来说，这种聪明都至关重要。

强化学习让机器人更“聪明”

一般来说，开发者会编程机器人，让他们通过这些设定好的指令来执行动作，不过从某种程度上来说，这种方式有点死板。

而我们人类在学习上则要聪明得多。因为，即使是婴儿也明白，物体从视野中消失并不代表从世界上消失；玩具球可以滚来滚去，沙发却不行；长大后，人们能够学习驾驶，而不是撞车。

这一切都要归功于人类大脑里建立起来的世界模型。

Facebook 首席 AI 科学家 Yann LeCun 表示：

如果我们在悬崖边开车，方向盘只要往右转，汽车就会掉下去，所以，我们绝不会这样做。我们大脑里的世界模型会阻止我们自己做傻事。

Facebook 也在尝试为机器提供这种模式，Yann LeCun 补充道说，建立世界模型的系统是 AI 取得重大进展的下一个挑战。

实际上，Facebook 并不是第一个尝试让机器人学会自我移动的团队。

雷锋网注：上图为 Brett 机器人及其开发者 Pieter Abbeel

在加州大学伯克利分校，研究人员使用了一种名为强化学习（reinforcement learning）的技术，让双臂机器人 Brett 把方形钉子塞进一个方形洞里。

在此过程中，研究人员会让 Brett 尝试许许多多随机的动作：如果 Brett 更接近目标，系统就会给它“奖励”；如果 Brett 搞砸了，系统会给它“记过”。

这些记录，Brett 都会保存下来，然后经过多次迭代，它会越来越精准地找到方洞，并把钉子放进去。

创新的自我监督学习

而 Facebook 的尝试有点不同，Facebook AI 研究科学家 Franziska Meier 表示:

我们想尝试的是给机器人灌输好奇心的概念。

人类就是通过好奇心来认识世界的，比如，孩子们想知道猛拽猫尾巴会发生什么，所以他们会去做这种尝试。因此，Brett 是通过一点一点地靠近目标，来改进自己的动作，而 Facebook 的 Sawyer 则是靠近目标，然后故意偏离轨道。

Facebook 研究人员旨在让 Sawyer 自由地尝试非最佳动作，而不是奖励它不断取得的成功，即使这在当时看起来并不理性。Meier 说：

虽然 Sawyer 没有完成任务，但它给了我们更多的数据，我们通过这种方式获得的数据比传统的方式要多。

这个概念被称为自我监督学习——机器人尝试新行为并更新软件模型，从而帮助它预测自己的行为后果。

雷锋网注：上图为 Facebook 所说的“自我监督学习”的算法模型

这样做的目的是让机器能够更加灵活地去完成任务，或者说，更容易适应动态的人类环境。

比如，机器人要将架子上的杯子放到旁边的架子，最好的方法是将杯子直接平移，然而两个架子之间有隔板，这就需要机器人反复试验、反复犯错，直到它探索出更好的解决方案。

正如奥斯陆大学的机器人专家 Tonnes Nygaard 所说的那样：

如果我们一直执着于一个解决方案，我们可能会走进死胡同；我们更应该专注于探索更多新的解决方案。

模拟与现实之间的差距

一些研究人员通过模拟来教机器人完成任务——建立一个数字世界，再让其中的动画对象通过“犯错”的方式来完成任务。这种方法相对较快，因为当数字“机器”不受现实世界物理定律的约束，它们迭代的速度要快得多。

不过，虽然模拟更高效，但它并不能完美地反映真实世界，模拟动态人类环境的复杂性。

这就导致，机器人在模拟环境中能够完美匹配的理论，在现实世界中却不适用。在现实世界中做任何事情都可能更慢、更费力，但好处是，机器人能获得的数据更纯粹。

Facebook的人工智能研究科学家 Roberto Calandra 表示：

如果它在现实世界中行得通，那它就真的行得通。

毕竟，机器人在现实世界中要面对各种意想不到的麻烦，程序员不可能对每一个都预先进行编码.

AI 和机器人相得益彰

雷锋网注：上图是 Facebook 的六足机器人

从某种程度上来说，Facebook 的项目是 AI 和机器人的伟大融合。

虽然谷歌和亚马逊和 Facebook 等科技巨头已经大大推动了 AI 的发展，比如让机器进行图像识别，不过这个任务仍基于人们事先给图片贴好标签。不得不承认，机器还是不够聪明。

随着 AI 研究人员开始使用机器人作为平台来改进软件算法，这种情况开始发生变化。

例如，Facebook 教机器人独立完成一系列任务，这反过来可能会对开发 AI 助手有所启发，让它们能够更好地为用户服务。LeCun 说道：

如果机器人解决了一个问题，同理，它也能在另一种情况下解决这个问题。

简而言之就是，AI 正在让机器人变得更聪明，而机器人也在帮助推进 AI 的发展。

不过，Facebook 表示，目前，公司的这项研究并没有连接到特定的产品。不过，LeCun 说：

我们认为，机器人将在远程呈现中发挥重要作用。毕竟，Facebook 拥有 Portal 和 Oculus VR 系统。

机器人监督学习

0 人点赞