DeepMind的机器人技术

2022-06-08 15:12:53 浏览数 (1)

DeepMind以其在深度强化学习方面的工作而闻名,尤其是在掌握复杂游戏和预测蛋白质结构方面。

如今,DeepMind向机器人技术迈出了一步。

2021年10月18日,DeepMind收购了物理模拟器MuJoCo,并宣布它将免费提供,以支持全球各地的研究。

2022年5月23日,DeepMind宣布MuJoCo的开源已经完成,可以在GitHub上访问其全部源代码。

DeepMind在机器人领域的进展

近年来,DeepMind在机器人领域已有诸多探索和研究进展,具体介绍如下。

MuJoCo模拟器:机器人研究的关键工具

模拟器创造了有效复制“现实世界”物理特性的虚拟世界,是现代机器人研究中的关键工具,让研究人员以一种安全和廉价的方式开发和测试算法。研究人员可以创建一个数字机器人,将其放置在模拟器中,让它学习如何无风险地在世界中行走。这种训练方法也比让机器人直接在现实世界中学习要快得多,因为在模拟器中能够快速进入更广泛的环境,并运行数千次。

物理模拟器通常分为两类。第一类是闭源的商业软件。对用户来说是不透明的,虽然有时可以免费使用,但无法修改且难以理解。第二类是开源软件,通常在学术界创建,但通常用户群较小,其开发人员和维护人员的工作可能会受到影响。

MuJoCo是多关节接触动力学 (Multi-Joint Dynamics with Contact) 的缩写,由华盛顿大学教授Emo Todorov为Roboti LLC开发,并于2015年至2021年作为商业产品提供。MuJoCo结合了广义坐标模拟和优化后的接触动力学,这使它能够模拟完整的物理运动。由于其接触模型丰富而高效,MuJoCo成为了机器人研究人员的首选。

DeepMind称,尽管模拟器对AI机器人的开发很重要,但工程师可用的大多数机器人模拟器都存在重大缺陷。而MuJoCo是少数几个全功能模拟器之一,它是真正开源的,将帮助工程师训练可以控制先进机器人的人工智能。

深度强化学习训练机器人

2016年10月,DeepMind的研究人员发表文章《具有异步离策略更新的机器人操作的深度强化学习》,展示了深度强化学习如何训练真正的物理机器人。该论文表明,基于深度Q函数的强化学习算法可以扩展到复杂的3D操作任务,并有效地学习深度神经网络策略,以在真实的物理机器人上进行训练。研究进一步表明,通过多个机器人的算法并行化可以进一步减少训练机器人的时间。

在模拟环境中产生灵活的行为

真正的运动智能需要学习如何控制和协调灵活的身体来解决一系列复杂环境中的任务。2017年7月,DeepMind发表了3篇文章,探索产生灵活自然的行为的方法,这些行为可以被重新利用来解决任务。

强化学习用于描述和解决智能体 (agent) 在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。第一篇文章《丰富环境中运动行为的出现》探讨了一种使用策略梯度强化学习的新的可扩展方法,让智能体可以根据环境的需要学习奔跑、跳跃、蹲伏和转弯,而无需明确的基于奖励的指导。

不过,使用带有简单奖励函数的纯强化学习的方法,往往会产生非人类且过于刻板的运动行为。第二篇文章《通过对抗性模仿从动作捕捉中学习人类行为》展示了一种生成对抗模仿学习,使通用神经网络策略的训练能够从有限的演示中产生类似人类的运动模式。

该策略网络模仿人类的动作数据来预学习走路、从地上爬起来、转身和跑步等技能。在产生了看起来像人类的行为之后,可以调整并重新利用这些行为来解决其他任务,比如爬楼梯和在有围墙的走廊中前进。

深度生成模型在模仿运动控制中显示出巨大的前景。第三篇文章《多种行为的稳健模仿》提出了一种基于最先进的生成模型的神经网络架构,这种架构能够学习不同行为之间的关系并模仿特定动作。

训练后,系统可以对单个观察到的动作进行编码,并根据演示创建一个新的新颖动作。尽管从未见过它们之间的转换,但它也可以在不同类型的行为之间切换,例如在行走方式之间切换。

扩展数据驱动的机器人技术

2019年9月,DeepMind在文章《利用reward sketching和批量强化学习扩展数据驱动的机器人技术》中展示了一个数据驱动的机器人架构,该架构使用了记录机器人经验的大型数据集,使用学习的奖励函数将其扩展到多个任务。该架构可用于在真实机器人平台上完成三种不同的对象操作任务。

研究人员使用一种特殊形式的人工注释作为监督来学习奖励函数,这样就可以处理无法直接获取奖励信号的现实任务。使用该方法有可能训练机器人执行各种具有挑战性的操纵任务,例如堆叠刚性物体。

更通用的机器人

在教机器人如何执行任务之前,它们首先需要学习如何与范围更广的物体进行交互。这是DeepMind使命的一部分,也是朝着制造更通用和更有用的机器人迈出的一步。

在一篇作为OpenReview预印本提供的论文《超越取放:处理不同形状的机器人堆叠》中,DeepMind介绍了RGB-Stacking作为基于视觉的机器人操作的新基准。在这个基准测试中,机器人必须学习如何抓住不同的物体并将它们相互平衡。

结果表明,模拟和现实世界数据的组合可用于学习复杂的多对象操作,并为泛化到新对象的开放问题提供强有力的基准。

该研究被认为是DeepMind致力于制造通用且有用的机器人的一项重大进展。RGB-Stacking基准测试已与用于构建真实机器人RGB堆叠环境、RGB对象模型和3D打印信息的设计一起开源。

机器人-AI范式的挑战

机器人技术是革命性的,与具体行业结合,有实现行业自治的潜力。

世界各地的许多开发人员和研究人员尝试将AI嵌入机器人技术中,以将机器人行业推向一个新的水平。而随着系统的决策和预测能力、机器人技术和AI的融合,前所未见的革命性发展是可能的。

不过,机器人-AI范式仍然面临艰巨的挑战和长期的问题。

灾难性遗忘

当人工智能学习一项新任务时,它倾向于忘记所有旧任务。灾难性遗忘 (Catastrophic forgetting,指AI在学习新任务或适应新环境时,忘记或丧失了以前学习的一些能力) 不仅是机器人技术的问题,也是整个人工智能技术的问题。事实上,有效的“忘记”本身就是一种训练。

例如一个用于猫或狗图像分类的神经网络,训练它来区分公共汽车和汽车时,它之前的所有训练都将毫无用处。它响应车辆图像的输出首先是随机的。但随着它的训练,它会重新调整其连接并逐渐变得有效。它最终将能够非常准确地对公共汽车和汽车进行分类。但是,此时,如果你给它看一张狗的照片,所有的节点都会被重新加权,它会“忘记”它之前学到的一切。

有人提出了一种被称为“弹性权重合并 (elastic weight consolidation.)”的方法来应对灾难性遗忘。在学习了一项任务后,神经网络将评估神经元节点之间的哪些突触状连接对该任务最重要,并将部分冻结它们的权重。这种处理有一个明显的副作用:每次神经网络学习一项任务时,更多的神经元将变得缺乏弹性。

自2018年以来,DeepMind团队在研究一种名为“进度和压缩 (progress and compress)”的技术。此外,渐进式神经网络 (Progressive neural networks) 是避免灾难性遗忘的直接方法。

通用智能AI机器人的挑战

另一个根本问题仍然存在。如果想要构建一个可以执行多项任务和工作的机器人,将不得不在各种场景、条件和环境中、分别在每项任务中训练机器人内部的AI。然而,一个可以执行多项任务并不断学习新事物的通用智能AI机器人极具挑战。与DeepMind一样,FS Studio也也在改进技术,采用如机器人模拟、离线编程和数字孪生的技术,来重塑以人工智能为中心的机器人研发范式。

对输入的处理

在将安全的人工智能带入行业或日常生活的过程中,还有许多其他障碍需要克服。

伦敦帝国理工学院机器人研究工作的Thishantha Nanayakkara认为,使动物能够与世界打交道的大部分“处理”并不是发生在大脑中,而是发生在身体的其他部位。例如,人耳道的形状可以分离声波。但目前大多数机器人都依赖CPU来处理所有输入,他认为在取得实质性进展之前必须克服这一限制。

机器人的元认知问题

Nanayakkara的同事Petar Kormushev认为,另一个问题是本体感知或者说元认知问题,即机器人对自己身体的感觉。当人类拿起一把锤子时,我们会调整我们的身体形状和重量的心理模型,这让我们把锤子作为我们身体的一个延伸。然而机器人对自己的大小和形状的认知模型是由人类直接编程的。

也就是说,人类的大脑里有一些东西可以检查我们对世界的反应。但是当机器人拿起一个重物时,它没有办法更新其自我形象。在实际中,机器人总是要么过度自信,要么不够自信

此外,模拟本身可能也存在问题。在流行的“健身房”环境中表现良好的学习算法可能不适用于真实的机器人,模拟有可能比实际运行快几个数量级。

这些开放性的问题都是机器人技术未来工作的方向。

参考资料

https://roboticsimulationservices.com/how-deepmind-is-reinventing-robotics/

https://baijiahao.baidu.com/s?id=1714019200524475200&wfr=spider&for=pc

https://www.freethink.com/technology/robot-simulator

https://arxiv.org/abs/1610.00633

https://arxiv.org/abs/1707.02201

https://arxiv.org/abs/1707.02747

https://arxiv.org/abs/1707.02286

https://openreview.net/forum?id=U0Q8CrtBJxJ

https://www.deepmind.com/blog/producing-flexible-behaviours-in-simulated-environments

https://www.deepmind.com/publications/scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning

https://spectrum.ieee.org/how-deepmind-is-reinventing-the-robot

--------- End ---------

0 人点赞