让「盲人能摸象」：港中文博士用无监督学习去遮挡，论文一年多终于入选CVPR 2020

新智元报道

编辑：元子

【新智元导读】自然的场景理解是一项艰巨的任务，尤其是在遇到部分被遮挡的多个对象的图像时。本文研究了场景去遮挡的问题，该问题旨在恢复潜在的遮挡顺序并完成被遮挡对象的不可见部分。本文设计了一种新颖的推理方案，该框架可恢复隐藏的场景结构，而无需使用顺序和无模态注释作为监督。

本文《Self-Supervised Scene De-occlusion》由中国香港中文大学和南洋理工大学团队合作完成，被接收为CVPR2020的oral presentation。

作者坦言，从2018年底就开始思考无监督的去遮挡和场景分解这个问题，因为并没有之前的工作很好地定义场景去遮挡这个问题，更别说解决，更别说用无监督的方法解决，所以前期踩了不少坑。

作者打了一个非常形象的比喻：有一群长相各异的大象排队经过。有监督学习，相当于正常人每看到一头大象，就把大象画下来。无监督学习，则是盲人摸象，这位盲人可以这只大象摸一下鼻子，那只大象摸一下腿，最后把每头大象完整的样子想象出来。

场景去遮挡分解为3大步骤

进入正题。我们先来看看我们希望达到什么效果，如下图：

我们希望将一张真实场景图片分解为完整的物体和背景，物体间根据遮挡关系组成一个有向图。我们将场景去遮挡这个问题分解为如下步骤：

两两邻接的物体之间的顺序恢复。有了pair-wise ordering之后，我们就可以得到一个描述场景遮挡关系的有向图，称之为遮挡关系图（occlusion graph）。
Amodal completion。在遮挡关系图中，我们可以检索到任意一个物体被哪些物体遮挡了，这样我们就可以进行amodal completion步骤，把物体完整的mask恢复出来。
Content completion。有了amodal mask之后，我们就知道了物体的被遮挡区域（不可见部分），那么下一步就可以想办法在不可见部分填充RGB内容，使得这个物体完整的样子被恢复出来。

我们现在有的数据包括RGB的图片，modal mask和物体类别。modal mask是指物体可见部分的mask，其实就是一般意义的instance segmentation的mask。

这些其实正好构成了一个instance segmentation的数据集，例如COCO，KITTI，LVIS这些。注意这样的数据集里并没有遮挡关系和amodal mask的标注，所以用有监督学习的思路是无法解决上述问题的。

自监督的部分补全机制

下面来介绍一个重要的概念，部分补全。在此之前，我们先来介绍完整补全。

如果有amodal标注，可以使用完整补全来训练和预测完整补全是指给定被遮挡的物体和它的遮挡物，一次性将物体完整的amodal mask补全，当然它的前提是需要有ground truth amodal mask作为监督。我们发现一次完整补全等价于一系列的部分补全。

这里的部分补全（partial completion）是指，给定某一个遮挡物，只补全目标物体被当前遮挡物遮挡的部分。例如给定上图中的圆形遮挡物，把M0补全为M1。然而，这些部分补全过程还是无法训练的，因为补全的中间状态例如M1和最终状态例如M2都是未知的。

接下来则是最关键的操作。如下图，我们将M0再“切一刀”，即从数据集中随机选一个物体，用它的modal mask来盖住M0，得到M-1，然后我们训练部分补全，从M-1恢复M0。这个过程是可训练的。自监督的部分补全机制：

有了部分补全机制之后，为了方便后续的步骤，我们还需要引入一个正则机制，即下图case 2。

Case 1是之前介绍的用随机选择的surrogate object来遮挡住目标物体。用case 1来训练的部分补全会永远增加物体的面积。我们又引入了case 2，将surrogate object放在目标物体下面，然后要求在部分补全过程中保持目标物体不变。训练过程在case 1和2之间随机切换，那么网络在训练过程中需要从输入中挖掘信息来判断目标物体是否被surrogate object遮挡，只有在目标物体被遮挡的时候，它才会被部分地补全，否则就会保持不变。

部分补全网络的训练

我们用一个神经网络来模拟这个部分补全过程。部分补全网络（Partial Completion Network - Mask，简称PCNet-M）的训练过程如下，其中A物体为目标物体，B为surrogate object，对于case 1和2，PCNet-M都需要恢复出A的初始modal mask。

顺序恢复的推理过程

如下图，有了训练好的PCNet-M之后，我们设计了如下推理过程来恢复遮挡顺序。给定A1和A2两个邻接的物体，我们分别以A1为目标物体，A2为surrogate object，我们发现PCNet-M并没有增加A1的面积；反过来，我们以A2为目标物体，A1为surrogate object，我们发现A2的面积增加了。由此我们可以判断出来，A1遮挡了A2。

这个策略看似简单，实际上很巧妙地利用了正则化后的部分补全机制的选择性补全的特性，获得了很好的效果。我们在COCOA和KINS两个数据集上获得了和有监督方案非常接近的结果。

基于遮挡顺序的Amodal Completion

如下图，有了遮挡顺序之后，我们可以构建出一个遮挡顺序图。图中的边从遮挡物指向被遮挡物，这样一来，从图中对于任意一个物体，我们可以得到它的所有祖先节点，即为它的所有遮挡物。其中一阶祖先节点为直接遮挡物，高阶祖先节点为间接遮挡物。例如下图例子中，我们可以得到，物体3有两个直接遮挡物，分别为2和4。判断出遮挡物之后，我们就可以再次利用部分补全网络（PCNet-M）来恢复出amodal mask。

我们还需要解释一下为何要选取所有祖先节点作为遮挡物，而非仅仅直接遮挡的一阶祖先节点。如下图，我们需要补全物体1。从遮挡关系图中，它的一阶祖先节点（即直接遮挡物）是2和4，高阶祖先节点（间接遮挡物）是3。我们发现，只考虑一阶遮挡物，无法完整地补全物体1被物体3间接遮挡的部分。只有考虑所有祖先节点，才可以获得正确的补全结果。

使用一阶祖先节点和包括高阶祖先的所有祖先节点的对比下面是amodal completion的结果。同样，我们在amodal completion这个子任务上也达到了和有监督方案非常接近的结果。

内容补全网络训练方式

内容补全网络（Partial Completion Network - Content，缩写PCNet-C）的训练方式和PCNet-M类似。同样地，我们无法在训练的时候用完整内容补全的结果来监督，我们设计了如下的部分内容补全的训练策略。给定目标物体A和surrogate object B，我们用A∩B来擦除图片的RGB，作为缺失的需要填充的内容，然后用AB来代表缺失的内容属于哪个物体。训练的目标是恢复原图。

测试的时候，我们有了遮挡物（occluders）和目标物体的amodal mask，取交集，就得到了需要填充内容的区域（即被遮挡的区域）。同时目标物体的modal mask也作为输入，用来表示缺失的区域属于该目标物体而非其他物体。最后PCNet-C将物体完整的样子补全了出来。

说得这么花里胡哨，这不就是image inpainting吗？

还真不太一样，我们往下看。

如下图，关键的不同之处在于，image inpainting没有modal mask这个输入，因为image inpainting并不care缺失的部分属于哪个物体，只要结果看起来合理就行。那么如果我们直接使用image inpainting，缺失的区域就会被填充为其他物体的RGB，例如下面的咖啡杯。这个结果对于image inpainting是非常合理的，但是对于物体的内容补全来说，则是不正确的。

当然PCNet-C的其他训练方式，包括网络结构，loss等，都跟image inpainting大同小异。所以以后image inpainting做得更好了，也能帮助提升内容补全的效果。

应用1：amodal mask自动生成

给一个普通的instance segmentation dataset，例如下图中的KITTI training set，我们训练PCNet-M并且仍旧在training set上应用我们的amodal completion方法，就可以得到pseudo amodal masks。这样我们相当于在training set上免费拿到了一批amodal mask。

我们来看看这些amodal mask质量和人工标注的amodal mask的对比。我们使用不同来源的amodal mask作为监督，用Mask R-CNN在KITTI上训练了amodal instance segmentation任务，并在人工标注的测试集上测试。我们发现我们的方法获得的amodal mask和人工标注获得了正好一样的结果。这意味着以后可能再也不需要标amodal mask了。

应用2: 场景编辑和重组

既然我们现在能将场景分解开，那么就可以对场景进行编辑和重组。如下图，其中的baseline modal-based manipulation是基于普通的image inpainting做的，只有modal mask，没有ordering和amodal mask。我们的方法基于ordering和amodal mask，能做更加自然的场景编辑。

我们也做了一个图片编辑的GUI，demo如下（完整高清demo见文末链接）：

其他潜在应用

Instance segmentation的data augmentation。还记得去年有一篇很棒的工作（InstaBoost, ICCV2019），通过移动物体来做data augmentation，但是不能解决移动物体过程中的遮挡问题。现在配合scene de-occlusion，也许可以做得更好。

帮助panoptic segmentation后处理中的mask fusion步骤。

应用到增强现实（AR）中。例如下图，对真实场景做de-occlusion之后，就可以将虚拟的物体放在真实物体的后面。