ICCV 2021 Oral | 基于点云的类级别刚体与带关节物体位姿追踪

2021-09-16 16:30:44 浏览数 (1)

导读:本文是计算机视觉领域顶级会议 ICCV入选论文《基于点云的类级别刚体与带关节物体位姿追踪(CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds)》的解读。该工作由北京大学前沿计算研究中心陈宝权课题组与斯坦福大学/北京大学王鹤等合作完成,论文共同一作翁伊嘉为2021届图灵班学生。

项目主页: https://yijiaweng.github.io/CAPTRA/

论文地址: https://arxiv.org/abs/2104.03437

1 引言

物体位姿包含相机坐标系下物体的三维平移与三维旋转,在计算机视觉与机器人学中有着广泛应用,如指导机器人抓取与操纵物体,在增强现实中将虚拟内容叠加在真实物体上等。

不同于只能应用于已知物体的实例级别位姿估计,[1] 提出的类级别物体位姿估计问题要求对来自已知物体类别、与训练物体存在几何差异的未知测试物体进行九自由度的位姿估计,即估计物体的三维尺寸、三维平移、三维旋转,更适用于实际应用中形状外观各异的真实物体。[2] 进一步将对刚性物体的位姿估计拓展到带关节物体(如笔记本电脑、抽屉、眼镜)上,为理解和模仿人类与带关节物体之间的复杂互动奠定了基础。

目前,大部分类级别物体位姿估计的工作聚焦于单帧位姿估计,而我们希望能对连续多帧观测进行时序上平滑的物体位姿追踪,从而更好地服务于增强现实、基于实时反馈的闭环控制等应用。

我们提出了首个可以同时应用于刚性物体和带关节物体,运行在类级别场景下的九自由度位姿追踪框架。给定当前帧的深度点云与上一帧的物体位姿估计,本文提出的框架能通过端到端的训练,准确地更新位姿估计,在估计准确率与运行速度上都超过了已有的最好方法。

2 方法简介

图1. 类级别物体位姿追踪任务

如上图,给定包含实例 的实时深度点云流 ,其逐部件初始位姿估计 ,我们希望在线地追踪其各部件位姿 。具体来说,我们逐帧进行位姿估计,在 帧,基于第 帧的各部件位姿估计 与第 帧的深度点云观测 ,估计第 帧的各部件位姿 。

仿照[1],我们将九自由度位姿 进一步分解为七自由度相似变换 与三维长宽高比例 ,以下主要讨论 的估计,细节请参见论文。

位姿估计存在两类主流方法,基于坐标预测的方法首先为观测点预测其对应物体点在归一化物体坐标系中的坐标,利用观察坐标与归一化物体坐标之间的对应关系,使用 RANSAC 拟合物体位姿,得益于 RANSAC 对离群点的有效移除,该方法通常能获得更为准确与鲁棒的预测,但 RANSAC 算法中的假设采样较为耗时,其过程也不可微,无法直接针对位姿进行优化。

基于位姿回归的方法进行端到端可微的直接预测,能够达到很高的运行速度,但容易产生更大的预测误差。我们希望结合两类方法的优势,建立一个端到端可微、精度与速度兼备的位姿追踪系统。

如下图所示,我们的模型由位姿正规化(Pose Canonicalization)、旋转回归网络(RotationNet)与坐标预测网络(CoordinateNet)组成。

图2. 我们的位姿追踪框架

位姿正规化(Pose Canonicalization)

为了简化将输入点云坐标 映射到输出相似变换 的学习问题,我们将前一帧位姿估计 的逆变换与输入点云 相乘,得到位姿正规化点云

作为模型输入,令模型输出 中部件 的位姿 ,再间接计算 。

由时序连续性,可以推出

,这意味着 中部件 总是接近正规位姿(canonical pose), 接近恒等变换,原问题的输入与输出被同时正规化,从而大大降低了网络预测位姿的难度。

旋转回归网络(RotationNet)

以位姿正规化的点云 为输入,我们训练旋转回归网络,直接对 进行回归,再计算原始旋转

总在恒等变换附近,直接回归就能实现准确估计。

坐标预测网络(CoordinateNet)

由于点云 不完整,存在平移与尺寸上的歧义(举例来说,当一支铅笔的一端被遮住时,铅笔的长度无法确定,其中心的平移也无法确定),直接回归 和 仍然很困难。我们转而训练坐标预测网络,从 预测部件在归一化坐标系下的坐标 ,这一稠密的预测目标要求网络能捕捉到类级别的物体几何先验知识,包含了更为准确的有关物体平移、物体尺寸的信息。

基于归一化坐标 与原始点云 的对应关系与旋转回归网络的预测 ,我们解析地计算物体的平移与尺寸。在位姿正规化模块的帮助下,我们预测的 相当准确,无需 RANSAC 就能达到高精度的位姿估计,从而实现一个快速、端到端可微,能直接以 9DoF 位姿准确度为优化目标的计算框架。

3 结果展示

我们的方法在类级别刚性物体位姿估计数据集 NOCS-REAL275 [1]、基于 SAPIEN [3] 的类级别带关节物体位姿估计数据集、BMVC [4] 上均超过了已有方法,以下展示部分定性结果,详细实验设定与定量结果请参见论文。

刚性物体位姿追踪

我们在 NOCS-REAL275 真实世界数据集上与类级别刚性物体追踪算法 6-PACK 进行比较,使用三维包围盒表示九自由度位姿估计,绿色表示追踪误差≤5º5cm,红色表示追踪误差>5º5cm。我们产生的追踪结果更加准确。

图3. NOCS-REAL275上的类级别刚性物体位姿追踪

带关节物体位姿追踪

由于没有现成的类级别带关节物体位姿追踪数据集,我们基于 SAPIEN [3] 生成了一个合成数据集,并在其上对比我们的方法与类级别带关节物体位姿估计算法 ANCSH [2]。我们的追踪结果更加准确、平滑,对自遮挡更加鲁棒。

图4. SAPIEN合成数据集上的类级别带关节物体位姿追踪

我们进一步在真实世界的带关节物体数据上测试我们的模型。在 BMVC [4] 数据集的笔记本电脑序列、我们采集的剪刀序列、机械臂操纵抽屉序列上,我们仅在合成数据上训练的模型均能成功泛化,达到对物体的准确追踪。

图5. 上:BMVC数据集中的笔记本电脑序列;下:我们采集的剪刀序列

图6. 机械臂操纵抽屉序列

4 结语

本文提出了一个端到端可微的位姿追踪框架,能同时处理类级别刚性物体与带关节物体九自由度位姿追踪问题,在多个数据集上达到了 SOTA 效果。未来可能的研究方向包括对关节限制的进一步利用,向部件个数不固定、部件连接关系不固定的带关节物体类别拓展等。

参考文献

[1] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran Song, and Leonidas J Guibas. Normalized object coordinate space for category-level 6D object pose and size estimation. CVPR 2019.

[2] Xiaolong Li, He Wang, Li Yi, Leonidas J Guibas, A Lynn Abbott, and Shuran Song. Category-level articulated object pose estimation. CVPR 2020.

[3] Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, and Hao Su. SAPIEN: A simulated part-based interactive environment. CVPR 2020.

[4] Frank Michel, Alexander Krull, Eric Brachmann, Michael Ying Yang, Stefan Gumhold, and Carsten Rother. Pose estimation of kinematic chain instances via object coordinate regression. BMVC 2015.

0 人点赞