DeepMind团队：新的训练策略使机器人高度复现人类和动物运动

基于计算机技术和生物交叉融合技术的高速发展，近些年来推出的一系列复杂机器人在特定环境中已经可以实现越来越高效的操作，而其中许多系统的结构组成是受自然界、动物和人类的启发。尽管这些机器人有类似于人类或其他动物的仿生结构，但它们的运动却不如像模仿的动物那样简单自如，这其中往往依靠复杂的编程控制和结构的不断优化，为了让实现真正的像动物那样移动，通常依靠运动控制器的优化，而这可能占据大量的资源和研发工作。

最近，来自伦敦的DeepMind团队在《arXiv》上提出了一种新技术，可以有效地训练机器人实现复制人类或动物的动作，用到的新工具受到了以前工作的启发，依靠运动捕捉技术收集人类和动物的运动数据。过去开发的很大一部分机器人运动控制器采用了模块化设计，即把一个系统分为相互作用不同的部分（即模块）。虽然其中一些控制器已经取得了很好的效果，但开发这些控制器往往花费大量的工程量。此外，模块化设计通常是针对特定任务的，这导致它们在不同的任务、情况和环境中无法实现很好的通用。一些研究人员提出了这些控制器的替代方案，其中一种叫做 "轨迹优化 "的方法将运动规划器和跟踪控制器结合起来。相对模块化涉及减少了工程量，但需要进行大量的计算，因此存在反应过慢而无法实时应用的缺点。

DeepMind团队表示："我们利用人类和动物运动的先验知识来学习真实腿部机器人的可重复运动技能。将以前模仿人类或狗的运动捕捉（MoCap）数据用于学习运动技能模块。而机器人一旦学会这些技能，这个技能模块就可以在复杂的下游任务中被重复应用。" Steven Bohez和他在DeepMind的同事提出了另一种替代方法，用于训练仿人机器人和腿部机器人按类似于人类和动物的运动风格的方式运动。依靠运动捕捉技术收集的运动数据中提取出人类和动物的运动技能，然后用这些数据来训练机器人。

系统功能的开发过程

该系统功能的开发过程依靠用精确的仿真模型以及仿真中的动力学和定义域随机化来实现的。主要包括四个主要阶段。首先，他们将运动捕捉数据重新定位到现实世界的机器人。随后，他们训练了一个层次化策略，在模拟环境中仿真运动捕捉数据中的理想运动轨迹。其中一个跟踪策略将所需的参考轨迹编码为一个潜在的移动，用于随后控制另一个以本体感觉为条件的低级控制器。训练过后，可以通过训练一个新的任务策略来重复使用低级控制器，依靠输出潜在动作给低级控制器发送指令，而保持固定的参数。这使控制器能够令机器人复制复杂的人类或动物动作，如运球。最后，Bohez和他的同事以零样本的形式将控制器从模拟环境转移到真实的硬件中。

该团队表示：" MoCap数据所提供的先验过程对该系统功能的开发十分重要，我们的方法不需要大规模的反馈机制在重用时产生合理和自然的表观行为，这使得我们可以很容易地实现规范化的、面向任务的控制器，并且他们都适合应用于真实的机器人。"

随后，DeepMind团队在一系列的实验中评估了他们的方法，包括仿真和现实环境。在这些测试中，他们成功地该技术来训练控制器复现两个主要行为，行走和运球。随后，他们评估了真实环境下两个机器人（ANYmal四足机器人和OP3仿人机器人）再现的运动质量。

ANYmal机器人模仿狗的动作和OP3仿人机器人进行运球。包括原始数据可视化，运动仿真和现实模拟过程。ANYmal可在丘陵地形上实现可控行走， OP3机器人可进行运球。

评估结果令该团队十分有信心，证明他们的方法可以推进开发更真实的模仿人类和动物的机器人。在接下来的研究中，他们将对新的动物和人类行为进行策略训练，并尝试在机器人中复制这些行为。该团队表示：“我们希望将数据集扩展到更多的运动模式，并进一步探索技能模块能实现的下游任务范围。”

参考

Steven Bohez et al, Imitate and repurpose: learning reusable robot movement skills from human and animal behaviors. arXiv:2203.17138v1 [cs.RO], arxiv.org/abs/2203.17138

https://techxplore.com/news/2022-05-approach-human-animal-movements-robots.html

参考文献：https://arxiv.org/abs/2203.17138

仅用于学术交流，不用于商业行为，若有侵权及疑问，请后台留言，管理员即时删侵！更多阅读

机器人

0 人点赞