优Tech分享 | 腾讯优图在弱监督目标定位的研究及应用

2021-07-26 15:27:41 浏览数 (1)

计算机视觉技术让AI拥有了“眼睛”,而深度学习的出现让这双“眼睛”的算力增强,能够识别并对它看到的图像特征作出反应并获取对应信息。而其中,目标检测(Object Detection)作为图像理解中的重要一环,适用于包含多个对象的图片,需要对图像中的目标/物体进行定位和识别分类,从而确认它们的位置和大小,这也是计算机视觉领域的核心问题之一。

全“手工”的强监督目标检测方法费时且需耗费较大的标注成本,遇到任务变化或演变更是十分不友好,而弱监督学习则有望解决这些这些问题。腾讯优图实验室高级研究员noahpan以「弱监督目标定位的研究及应用」为主题,结合腾讯优图实验室在弱监督目标定位的研究进展、成果以及相关思考进行了分享。

01

从全监督到弱监督

目标定位的局限性

弱监督目标定位是指仅利用图像层面的类别标签学习图像中目标的位置,相比于全监督来说,弱监督目标定位可以节约很大的标注成本。相比需要标注图像级别的分类标签,标注bounding  box  level的图像标注需要大概10倍的时间。因此,仅利用图像层面的类别标签去学习目标位置,可以极大程度节约标注成本。

目前弱监督目标定位所关注的焦点更多在于一张图片包含一个类别,其他常用的解决方案则主要是通过多实例学习,以及通过线下方式得到一些region  proposal,通过对refund或是得到region  proposal。定位比较高的proposal,需要分配比较好的分类,最终得到定位结果。

现在目标定位方法的两点局限:

第一,局部响应,只能定位到目标的最具判别信息的局部区域;

第二,结构的损失,没有办法保证能够很好的学出目标的结构,比如边缘轮廓。

弱监督目标定位常用的数据集以及评测标准,数据集一般包含ImageNet和CUB-200-2011,评测方式主要包括两个层面,一个是Bounding  box,另一个是MASK。对于Bounding box来讲,一个实例需要满足两个条件才算正确定位:预测目标框与GT IoU 大于0.5;分类正确。最后统计测试集或者验证集上定位正确的比例。对于Mask来讲,需要考虑像素级的IoU, 更能衡量定位的准确性。

02

弱监督目标定位发展的五大分类

第一类:图像层面的擦除

  • 图像层面擦除。主要包括两个工作,HaS和CutMiX。随机地擦除图像层面的区域,同时让网络能够学到正确分类。在这个过程中驱动网络,去激活更大的区域,这类方法比较简单直接。

第二类:特征层面的擦除

  • 特征层面擦除。该类方法主要包括ACoL,ADL,MEIL。在主分类分支上,得到初始的CAM之后,对其特征进行擦除,擦除之后的特征进到另外一个分类分支上,两个并列的分支同时分类,最终测试结果是通过融合两个分支上的CAM作为最终结果。

第三类:基于空间约束,通过考虑如何在空间的相关性上,让网络去激活更大的区域

  • 基于空间约束。该类方法主要包括DANet, GCNet, SLTNet。DANet 通过类别分级重组缓解不同类别外观相似导致的局部响应。另外,通过增加对应每个类的特征数量并约束特征的相似性来整体提高类别响应区域。GCNet通过预设三种不同的形状:矩形、旋转矩形与椭圆形近似拟合目标形状,在最后分类分支借鉴对抗的思路,是的情景区域正确分类,背景区域无法分类引导网络学习准确的目标位置。SLTNet 的动机与DANet类似,为了缓解不同类相似纹理导致的局部响应问题,通过降低网络对于此类情况的类别损失,提高目标的响应区域。

第四类:Pixel-level的相关性

  • Pixel-level  correlation。该类方法包括SPG,I2C,SPOL等方法。该类方法通过计算特征中像素级别的相似性提高类别激活响应图的完整性。具体的I2C利用随机一致性与全局一致性两个方面提高目标的响应区域。SPOL则是通过融合网络中不同层的特征,利用浅层特征中的丰富细节信息,提高整体特征的响应完整性。

第五类:对CAM的改进

  • 对CAM方法的改进。主要包括Rethinking CAM 和 Relevance CAM两个工作。Rethinking CAM 通过为GAP层设置阈值保证特征聚合后不同通道特征具有相当的值域,保证对应的类别权重取值相似,缓解GAP导致的局部响应问题。Relevance利用Layer-wise Relevance Propagation方法计算网络每一个层的与目标类别相对应的相关性,之后采用GAP层得到对应通道特征相对于目标类别的权重,通过对不同通道特征进行加权得到网络中任意一层的类别激活图。另外,Relevance CAM 采用受限的LRP的方法,减掉非目标的相关性,得到比较精准的定位结果。这个方法与CAM相比优势在于,不仅可以只对最后一层卷积进行可视化,还可以得到中间层的可视化结果,和不同层的定位结果。

03

基于目标结构信息的弱监督目标

定位方法及研究成果

目前目标定位主要遇到两个问题,第一是局部响应,第二是没有办法保持结构信息。我们认为在训练完成的模型中已经具备了较为准确的定位信息,需要设计方法去从模型中提炼出来。而提取信息的关键在于提取long range的特征相似性。

因此,腾讯优图提出两个解决方案。

  • 方案一:在CNN网络上提出叫做High-order self-correlation 方法去捕捉网络中long range的特征相似性,解决CNN局部感受野导致的只能捕捉small range 的特征相似性问题;
  • 方案二:基于transformer,利用self-attention机制提供的全局感受野提取long range 特征相似性。

方案一:SPA CVPR2021

为什么GAP方式让网络定位到局部上去?

首先,GAP在特征聚合过程无法区分前背景,引入背景噪音,对分类造成负面的影响;其次,现在的卷积网络每一层的值域是不加限制的,网络正确分类可以通过在对应类别通道特征上有局部的极高响应,这样经过GAP后,仍然可以保证在对应类上有足够高响应进行分类。

针对这个局限我们提出了两个解决方案。

首先,对特征的值域做约束,加约束的好处在于如果网络想要正确分类,想要更大的激活值,必须激活更多的区域。

第二是提出比较简单的伪标签的方式。用一个简单的方差的方式,计算每个像素点在不同类别上的方差,如果方差比较小,我们就认为是背景,如果方差比较大,就认为是前景,通过这样的方式可以得到一个简单的伪MASK。

如何从网络里面提取高阶的相似性?

传统的计算两者的相关性,我们称作一阶相似性,即直接计算两个特征的距离。由于CNN的局部感受野的特点,一阶相似性无法准确计算long range 的特征相似性。

我们提出高阶的自相关性,以二阶相似性为例,我们在两个特征点之间寻找到第三个特征点,使得第三个点可以满足距离两个点之间的相似性足够高,之后将中间点分别到两点之间的相似性的乘积,作为两个点的距离。如图,和代表两个特征向量,计算两者之间的特征距离是cos( α β),在中间找一个点,现在计算和分别到的距离。在一定情况下可以满足 . 由于中间桥梁点不可知,我们将遍历整个feature map上除和两点的所有点作为中间节点,之后取平均作为二阶相似性。

基于高阶相似性,我们首先得到初始的CAM,把CAM里高响应的区域作为初始定位结果,计算高响应里面每个像素值所对应的高阶相似性,把所有在高响应区每个高阶的相似性取和做平均,作为最后的定位结果;又对背景区域做类似的操作得到对应背景的高阶相似性图。通过用前景减去背景的方式,得到最终的定位结果。

方案二:TS-CAM-ICCV2021

相比CNN网络,Transformer网络结构具有全局感受野,基于上面的分析,Transformer网络天然具有捕捉完整目标响应的优势,但是attention map不具备类别信息,使其无法直接得到对应目标类别的响应图。

基于此,我们设计了语义耦合的注意力图方法TS-CAM。TS -CAM对每个patch进行分类,最后通过GAP的方式得到分类的结果,而不是常用Vision Transformer 中利用单独的class token进行分类。在测试阶段,对分类结果进行重新排列,得到类似于CNN中 CAM的结果,进而得到每个类别上响应图。之后和从Transformer结构里面提取的整体相关性进行相乘,得到类别感知的激活图。从特征可视化结果上看,TS-CAM 的特征激活更加完整。

04

在图像内容审核等领域中的应用

基于目标定位,优图实验室尝试进行了一些简单应用。

第一,对于一个数据集可以对一部分数据标注类别与bounding box, 对剩下的部分只标注类别,通过弱监督定位方法得到只有类别标注的数据的bounding box结果,之后采用半监督训练的方式去提高整体模型的性能;另外一种是对图像中的部分实例进行类别与bounding box 的标注,利用弱监督目标定位方法对其他的目标进行预测,补全标注信息,最后用来训练整体的检测网络。

第二,做图像的检索,对于不同视角下变化较大的目标,一般会需要更加有细节信息的局部特征来做匹配,弱监督目标定位的方法可以很好地完成局部特征的定位。

05

基于弱监督目标定位的思考

整体来讲,弱监督目标定位的最大挑战在于如何去解决,或者缓解分类和定位的一些根本性差异。为了更好地寻找一个能达到高判别性的分类界面,分类问题往往只能得到局部的响应,但是定位的目的是不同的,需要找到完整的目标区域,我们有以下简单的思考。

第一,采用不同的architecture,就像Transformer,以及之前较受关注的MLP,利用全局感受野的优势去激活更多的区域。

第二,Pre-training,目的在于如何引入一些先验知识。可以试图通过大规模的预训练,额外引入一些我学到的针对这个目标的先验知识,去改善它的定位结果。

第三,重新去考虑特征和分类器之间的关系。主要问题在于如何设置一个能够兼容定位和分类的目标函数,或者去改进GAP,保证在特征聚合的过程尽可能保持目标的结构性。

第四,放宽约束,弱监督目标定位方法本身存在具有固有的天花板和局限性,CVPR 2020的工作提到本身弱监督目标定位是ill-posed问题,没有办法去解决,是否能够放宽条件?目前,腾讯优图也在做这方面的尝试,这是一个更有价值,更有意义,更有前景的方向。

0 人点赞