众所周知,人体运动合成是一项复杂且尚未满足的需求。现有技术受到缺乏高质量捕获数据的限制,为训练目的获取这些数据可能很昂贵——尤其是在当前的技术限制下,例如人类慢动作视频。
来自 NVIDIA、多伦多大学和 Vector Institute 的一个研究团队开发了一种基于单目 RGB 视频生成人体运动的方法,这种方法不需要运动捕捉等昂贵的设备。新系统比同类中以前的系统更高效、更准确,它使用接触不变优化,通过计算力彼此自然相互作用来强制执行物理约束,从而细化基于噪声的基于图像的姿态估计。研究人员通过一个合成未来运动和接触力的时间序列生成网络来改进模型。
通过引入平滑接触损失函数,该团队可以在不使用单独训练的检测器或解决非线性规划问题的情况下改进姿势估计。该研究还表明,当与所提出的基于物理的优化相结合时,即使无法访问运动捕捉数据集,对于仅通过视觉姿态估计训练的算法或模型来说,仍然是可能且足够的。
所提及的方法在 Human3.6m 数据集上进行了验证,并证明了与之前的工作(例如 PhysCap 或 HMR 模型)相比,所提出的模型在定性和定量上都提高了运动合成质量和物理合理性。
关键要点:
- 在这项研究中,引入了一种新框架,用于从原始视频姿态估计训练运动合成模型,而无需使用任何昂贵且耗时的过程。
- 所提出的框架通过接触不变优化(包括接触力的计算)强制执行物理约束来改进噪声姿态估计。
- 然后在精细的姿势上训练时间序列生成模型,合成未来的运动和接触力。
- 结果的详细分析表明,通过基于物理的细化和视频运动合成,姿势估计的性能显着提升。