SOGNet:用于全景分割的场景遮盖图网络

2019-12-27 12:18:05 浏览数 (1)

本文授权转载自:ZERO实验室atPKU

本文作者:杨一博,李宏扬,李夏,赵祈杰,吴建龙,林宙辰。

本文SOGNet: Scene overlap graph network for panoptic segmentation被AAAI 2020接收。该方法同时在COCO 2019 challenge panoptic segmentation track中被评为最佳创新奖(Innovative Award)。

01

引言

在全景分割任务中,对于背景像素,需要对其进行语义分割,确定其语义类别,对于前景像素,需要对其进行实例分割,确定其实例类别以及实例id。则每个像素只能有确定的类别和id。然而,目前基于区域候选框(region proposal)的实例分割方法,例如Mask R-CNN,输出的实例结果是包含重叠区域的。如图一所示,桌子和杯子两个物体,在杯子区域具有重叠的像素。只有获得他们的前后关系,才能得到一致的全景分割结果。

图一

已有的全景分割研究中,解决遮盖问题的方法包括利用启发式规则(Panoptic FPN,AUNet等)确定各个物体的遮盖顺序,和构造panoptic head(UPSNet,OANet等)对每个像素所属的物体进行预测。但这些方法通过比较objectness score或logit的大小来确定遮盖关系,结果不够准确,并且不能显式地输出物体间的遮盖关系。

该工作受到场景图(scene graph)任务的启发,将物体的遮盖问题构造为场景遮盖图(scene overlap graph)。在这种图结构中,节点为各个物体,i和j物体间的关系包含三种,i覆盖j,i被j覆盖,以及没有覆盖关系。但是,与场景图相关的任务不同,全景分割任务并不具有物体间关系的监督信息,从而能够对物体遮盖关系直接进行监督训练。该工作通过关系嵌入(relational embedding)模块,显式地表达物体间的遮盖关系,并且设计了可微的去除被遮盖区域logit的模块。由于去除遮盖的效果对最终全景分割的质量有着直接的影响,该工作利用全景分割提供的像素级(pixel-level)的监督信息,间接地完成了对物体之间实例级(instance-level)的遮盖关系的推理。

如图二所示,该工作主要包含四个部分,分别是联合分割模块(joint segmentation),关系嵌入模块(relational embedding),遮盖去除模块(overlap resolving),以及全景分割模块(panoptic head)。

图二

02

SOGNet

1、联合分割模块

在联合分割模块中,实例分割和语义分割共享backbone,一起训练。Backbone采用目前全景分割研究中常用的方法,ResNet FPN. 对于实例分割部分,采用标准的Mask R-CNN,利用实例分割的监督信息,完成对物体检测和分割。对于语义分割部分,采用UPSNet的方法,FPN各个尺度输出的特征首先经过三层deformable convolution, 其次上采样到统一尺度并沿channel维度拼接,最后经过1x1的卷积层输出对每个像素的类别的预测。语义分割部分利用全景分割的监督信息,预测全部类别(包括语义类别和实例类别)。

2、关系嵌入模块

对于一张输入图像,从标注信息(ground truth)中我们可以得到

,其中

,

,

分别指第i个物体的位置信息(bounding box),类别信息(one-hot形式的类别向量),和形状信息(binary mask)。

为该图像中物体的个数。在训练时,这些标注信息作为关系嵌入模块的输入,得到关系特征,进而显式地表达各个物体之间的遮盖关系。在测试时(inference),这些标注信息被替换为Mask R-CNN输出的预测。

Bilinear pooling技术可以表达两个特征构成的组合关系特征。受此启发,我们采用(Kim et al. 2017)提出的低秩外积(low-rank outer product),对各个物体的类别信息计算他们的类别关系特征:

其中,

表示逐元素相乘(element-wise multiplication),σ表示ReLU激活函数,

为两个线性映射,

将关系特征映射到输出维度

. 则所有物体的类别关系特征为:

其中,”[ ]”为拼接操作。采用相似的方式,可以得到所有物体的形状关系特征

.

对于位置信息,该工作采用一种具有平移和尺度不变性(translation- and scale-invariant)的方式,来构造位置关系特征:

其中

是从bounding box 中提取的位置和尺度信息,

将四维的相对位置特征映射到高维. 最终,所有物体之间的关系特征可以表达为:

其中

.

3、遮盖去除模块

得到所有物体之间的关系特征E后,可以显式地表示物体间的遮盖关系。如图二所示,E首先经过一个

层,得到single channel的输出,再经过sigmoid激活,并将其reshape为方阵,记为

。该矩阵的元素

具有的物理意义为第i个物体被第j个物体遮盖的势(potential)。下面可以引入遮盖关系矩阵,定义为:

其中,

是一个反对称矩阵,计算各个对称位置上的势差,σ为ReLU激活函数,用来过滤掉值为负的势差。这样,如果

,代表第i个物体被第j个物体所覆盖,并且在其对称位置上,必有

. 如果

,则代表着第i和第j两个物体没有覆盖关系。

利用每张图片各个物体的标注的位置信息,可以得到他们的Mask R-CNN输出的mask logits. 将这些logits进行插值到原图尺寸,记为

,他们之间具有重叠区域。利用公式(6),可以对物体i和物体j之间的遮盖区域进行处理:

其中,

为对第i个物体处理后的logits, s(∙)代表sigmoid激活,将

转变为类似binary形式的mask. 如图三所示,

计算他们的遮盖区域。

的值可以控制遮盖区域的logits是否从A_i中去除。当

>0时,

=0, 对

没有影响,反之亦然。

图三

考虑所有其他物体对物体i的遮盖关系,可以通过公式(7)来处理:

考虑所有物体,整个计算步骤可以表达为:

其中,

,

表示第三个维度上的Tucker product, 即将

reshape为

, 与

做内积,之后再reshape为

. 可以看出,该步骤对当前深度学习框架比较友好,可以通过可微的步骤,对遮盖区域进行处理。

4、全景分割模块

在全景分割分支上,和UPSNet相似,将语义分割分支上物体i相关位置对应channel的logits,记为

, 与

相结合。在UPSNet中,他们直接相加,记为Panoptic Head 1。SOGNet提出了改进的结合方式,记为Panoptic Head 2。两种方式对比如下:

其中,

为结合后的logits,

为一常数用来平衡语义输出logits和mask logits之间的数值尺度。

全景分割分支对每个像素的实例id做预测,并采取标准交叉熵作为损失函数。可以看出,我们的方法利用全景分割的监督信息,间接地训练了关系嵌入、遮盖去重模块。训练完成后,利用关系矩阵

, 即可获得物体间的遮盖关系。

除此之外,尽管在训练时我们不知道两个物体中哪一个物体遮盖另一个,但根据他们的binary mask

, 可以推断出这两个物体间是否有遮盖。我们引入一个对称矩阵定义如下:

其中,|·|通过求和计算binary mask的面积,指示函数当条件成立时为1. 当

时,代表物体i和j之间有显著的遮盖。进而引入如下关系损失函数:

当两物体有显著的遮盖时,促使

接近于1,从而避免在公式(6)中完成遮盖去除时,只能起到微弱的作用。

03

实验

在表一中,我们将SOGNet与UPSNet进行详细的对比。我们把UPSNet和SOGNet在同一实验环境下进行训练,采用一致的训练和测试策略。可以看出,我们改进的全景分割模块具有更好的表现。在UPSNet中,构造了一个void channel用来预测未知类别。使用未知类别预测时,SOGNet具有1% PQ的提升;不使用时,具有1.5% PQ的提升。

Tab 1:CompareSOGNet with UPSNet on COCO val.

在表二中,我们将SOGNet与启发式的方法进行对比。PlainNet为我们在同一实验环境下只训练联合分割模块得到的模型,并采用启发式规则得到全景结果。类别先验强制规定了某些类别之间的遮盖关系。SOGNet相比这些启发式方法,能够根据位置、类别、形状可微地推理遮盖关系,并且具有更好的性能。

Tab 2: Compare SOGNet with heuristic inference.

在表三和表四中,我们将SOGNet的表现与State-of-the-art的方法进行比较。表三列出了在COCO测试集上的结果,其中第一块是COCO 2018 challenge的前三名。可以看出,SOGNet能够取得目前单模型的最好性能。表四列出了在Cityscapes和COCO验证集上的结果,可以看出,SOGNet同样取得了优异表现。

Tab 3: Compare SOGNet with SOTA performances on COCO test-dev.

Tab 4: Compare SOGNet with SOTA performances on COCO and Cityscapes val.

如图四所示,我们可视化了由SOGNet学习出的物体间的遮盖关系。右边的激活图是对关系矩阵O的可视化,在(i, j)处的激活O_ij,代表着第i个物体被第j个物体所覆盖。可以看出SOGNet较为准确地表达了物体间的遮盖关系,比如:baseball glove遮盖person,tie遮盖person,然后person再遮盖bus,spoon遮盖cup,然后cup再遮盖dining table.

图四

相关链接

项目主页:

https://zero-lab-pku.github.io/publication/lixia/aaai20_sognet_scene_overlap_graph_network_for_panoptic_segmentation/

论文地址:

https://arxiv.org/pdf/1911.07527.pdf

COCO 2019 challenge slides:

https://drive.google.com/file/d/1JCgIqr5-4PUh1WIpiHaTLWGDqv8M-xP_/view

代码将发布于:

https://github.com/LaoYang1994/SOGNet

相关论文

[1] Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, Mask r-cnn. In ICCV, 2017.

[2] Jin-Hwa Kim, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha and Byoung-Tak Zhang, Hadamard product for low-rank bilinear pooling. In ICLR, 2017.

[3] Alexander Kirillov, Ross Girshick, Kaiming He and Piotr Dollar, Panoptic feature pyramid networks. In CVPR, 2019.

[4] Alexander Kirillov, Kaiming He, RossGirshick, Carsten Rother and Piotr Dollar, Panoptic segmentation. In CVPR, 2019.

[5] Justin Lazarow, Kwonjoon Lee, Kunyu Shi and Zhuowen Tu, Learning instance occlusion for panoptic segmentation. arXiv preprint arXiv:1906.05896.

[6] Qizhu Li, Anurag Arnab and Philip H.S.Torr, Weakly-and semi-supervised panoptic segmentation. In ECCV, 2018.

[7] Jie Li, Allan Raventos, Arjun Bhargava, Takaaki Tagawa and Adrien Gaidon, Learning to fuse things and stuff. arXiv preprint arXiv:1812.01192.

[8] Yanwei Li, Xinze Chen, Zheng Zhu, Lingxi Xie, Guan Huang, Dalong Du and Xingang Wang, Attention-guided unified network for panoptic segmentation. In CVPR, 2019.

[9] Huanyu Liu, Chao Peng, Changqian Yu, Jingbo Wang, Xu Liu, Gang Yu and Wei Jiang, An end-to-end network for panoptic segmentation. In CVPR, 2019.

[10] Sanghyun Woo, Dahun Kim, Donghyeon Cho and In So Kweon, Linknet: Relational embedding for scene graph. In NeurIPS, 2018.

[11] Yuwen Xiong, Renjie Liao, Hengshuang Zhao, Rui Hu, Min Bai, Ersin Yumer and Raquel Urtasun, Upsnet: A unified panoptic segmentation network. In CVPR, 2019.

0 人点赞