OCRNet: 目标区域上下文信息的特征表达 | ECCV 2020

2020-12-11 10:47:25 浏览数 (1)

论文下载:http://xxx.itp.ac.cn/pdf/1909.11065.pdf

代码下载:https://git.io/openseg and https://git.io/HRNet.OCR

简介:

本文研究语义分割中的上下文聚合问题。基于像素的标签是像素所属对象的类别,本文提出了一种简单而有效的方法,即对象上下文表示,通过利用相应对象类的表示来表征像素。首先,在地面真值分割的监督下学习目标区域。其次,通过聚集对象区域中像素的表示来计算对象区域的表示。最后,计算每个像素和每个目标区域之间的关系,并用对象上下文表示来增强每个像素的表示,这是所有对象区域表示的加权聚合。实验表明,提出的方法在不同的基准点上取得了具有竞争力的表现。HRNet OCR SegFix版本在2020ECCV Cityscapes 获得了第一名。

本文主要贡献:

举例说明,(a)为以ASPP为例的多尺度上下文以及(b)为标记像素的OCR上下文。ASPP: 上下文是一组稀疏采样的像素,标记为黄色和蓝色框。不同颜色的像素对应不同的膨胀率。这些像素同时分布在目标区域和背景区域。OCR: 上下文是位于对象中的一组像素(用蓝色区域标记)。

方法:

语义分割是将图片中的像素按照标签分类。

背景:

1.多尺度上下文:

ASPP模块是用来捕捉多尺度上下文信息,通过若干个平行的带孔卷积:

输出的多尺度上下文表示是由并行扩展卷积的表示输出的级联。基于扩展卷积的多尺度上下文方案在不丢失分辨率的情况下捕获多尺度上下文。

2.关系上下文:

通过计算每个像素的上下文考虑关系信息:

主题框架有两种,一是采用ResNet-101(输出步幅为8),二是HRNet-W48(输出步幅为4),前者的stage-3用来预测初略的分割图,将stage-4经过一个3x3卷积输出通道为512, 然后输入到OCR模块中。对于HRNet则直接将最后的输出输入到OCR模块中。

在OCR模块中使用一个线性单元1x1的卷积层,通过像素智能的交叉熵损失监督生成软目标区域。

目标区域监控和像素区域关系估计,从上表可以看出,目标区域监控和像素-区域关系方案对性能都很重要。

表中的比较表明,该方法具有优越的性能。原因是利用了像素表示和区域表示来计算关系。区域表示法能够对特定图像中的目标进行特征描述,因此对于特定图像的关系比单纯使用像素表示法更为精确。

在语义分割上的实验:

与多尺度上下文方案的比较

我们可以发现OCR的性能一直优于它;在公平比较下,PPM和ASPP跨越不同的基准。

与关系上下文模式的比较:

该方法在不同的基准测试中始终表现得更好。值得注意的是,Double Attention对区域数字选择很敏感,将这个超参数调整为64,它的结果表现最佳。

模型复杂度比较:

使用大小为[1*2048*128*128]的输入feature map 在推理过程中评估其复杂性。这些数字是在一个P40 GPU与CUDA 10.0。所有的数字都越小越好,从上表可以看出 OCR需要最少的GPU内存和最少的运行时间。

在Ctiyscapes数据集上和先进的算法比较:

在全景分割上的实验:

COCO val 2017全景分割结果:

可视化分割结果:

总结:

在本文中,提出了一种对象上下文表示方法来进行语义分割。成功的主要原因是像素的标签是像素所在对象的标签,通过对每个像素进行相应的对象区域表示来增强像素表示。实验结果表明,该方法在各种基准上带来了一致性的改进。

本文仅做学术分享,如有侵权,请联系删文。

0 人点赞