Towards Precise Supervision of Feature Super-Resolution

摘要

虽然最近基于proposal的CNN模型在目标检测方面取得了成功，但是由于小兴趣区域(small region of interest, RoI)所包含的信息有限且失真，小目标的检测仍然比较困难。解决这一问题的一种方法是使用超分辨率(SR)技术来增强小型roi的特性。我们研究如何提高级的超分辨率特别是对小目标检测,并发现它的性能可以显著提高了(我)利用适当的高分辨率目标特性作为SR的训练监督信号模型和(2)匹配输入的相对接受训练领域对低分辨率的特性和目标高分辨率特性。我们提出了一种新颖的特征级超分辨率方法，它不仅能正确地解决这两个问题，而且可以与任何基于特征池的检测器集成。在我们的实验中，我们的方法显著提高了Faster R-CNN在清华-腾讯100K、PASCAL VOC和MS COCO三个基准上的性能。对于小目标的改进是非常大的，令人鼓舞的是，对于中、大目标的改进也不是微不足道的。因此，我们在清华-腾讯100K上取得了最新的技术水平，在PASCAL VOC和MS COCO上取得了极具竞争力的成绩。

1、简介

自深度卷积神经网络(CNN)出现以来，目标检测方法的性能迅速提高。目前主要有两种方法:基于两阶段建议的模型具有准确性优势，而基于单阶段建议的模型具有速度优势。尽管近年来在目标检测方面取得了巨大的进展，但在某些特定条件下，如小、闭塞或截断，仍然很难检测到目标。在这项工作中，我们的重点是改进小目标检测在基于建议的检测框架，如Faster R-CNN。基于建议的检测器从根本上存在小目标区域建议太小无法识别的问题。例如，Huang等人表明，小目标的平均精度(mAP)分数大约比大目标低10倍。对于小的建议，感兴趣区域(RoI)池层通常提取复制的特征向量作为box预测器的输入，而box预测器最终在对小目标没有足够详细信息的情况下进行预测。此外，很可能RoI池的位置和它在图像中的实际位置是不匹配的。通过RoI align和和PrRoI pooling等先进的池化技术，可以部分缓解这种RoI池的失真。但是，它们没有提供箱形预测器可以用来更好地检测小目标的附加信息。

为了在小方案中丰富信息，以往的一些研究利用图像的超分辨率。由于超分辨整个图像的效率很低，Bai等人提出将小建议的图像像素超分辨为类似于大建议的像素。但是，它的RoI超分辨率无法考虑上下文信息，因为它只关注RoI。该方法利用上下文信息作为建议的特征，通过大范围的连续卷积操作来提取建议的特征。特别是，感知GAN利用生成对抗网络(GAN)对建议特征进行超分辨，提高了对小目标的检测精度。然而，现有的用于小目标检测的特征级超分辨率模型存在一个明显的局限性:缺乏直接的监督。也就是说，它们的超分辨率模型训练没有明确的目标特征，导致训练不稳定，限制了超分辨率特征的质量。在图像检索任务中，Tan等人表明，低分辨率和高分辨率特征对之间的特征-内容丢失导致了更好的超分辨率特征，具有更快的收敛速度。对更好的训练不仅是重要构造适当的高分辨率特性为目标,我们的分析还表明,这至关重要的比赛之间的相对接受字段对,尤其是对小RoI(图1)。也就是说,在[34]的图像检索任务只考虑整体图像的特点,相对接受字段不多对高、低分辨率之间的不同特征。另一方面，对于目标检测任务中常见的小RoI，差异非常大，导致小建议的超分辨率质量较差。

在这方面，这项工作的贡献有三个方面:

(1)我们深入研究了现有的特征级超分辨率小目标检测方法，发现(i)利用高分辨率目标特征作为监控信号，(ii)匹配输入与目标特征的相对接受域，显著提高了性能。

(2)我们提出了一种新颖的特征级超分辨方法，该方法可以垂直地应用于任何基于特征池的检测器。它充分利用了由我们的新目标提取器创建的高分辨率目标特征的直接监督，利用不需要额外参数的卷积，因为它与基础探测器的CNN主干共享参数。此外，我们提出了一种迭代细化生成器作为超分辨特征的新方法。

(3)利用ResNet-50、ResNet-101、MobileNet等多种CNN骨干，在清华-腾讯100K、PASCAL VOC、MS COCO三个基准数据集上，显著提高了Fast R-CNN小目标检测性能。对于小目标的改进是非常大的，令人鼓舞的是，对于中、大目标的改进也不是微不足道的。因此，我们在清华-腾讯100K上取得了最新的技术水平，在PASCAL VOC和MS COCO上取得了极具竞争力的成绩。

2、相关工作

综述了小目标检测的三个主要研究方向。

高分辨率图像：小目标检测的一种直接方法是生成高分辨率图像作为检测模型的输入。Hu等人使用双线性插值获得两次上采样的输入图像，Fookes等人使用传统的超分辨率技术来更好地识别人脸。然而，像级超分辨率还存在两个潜在的问题。首先，超分辨率和检测模型通常是独立训练的;超分辨率模型被训练成生成高分辨率的图像，即使是对于那些由于其独立性而对检测不重要的部分。其次，整体架构可能过于沉重，因为它采用放大的超分辨率图像作为输入，这可能会大大增加推断时间。虽然Haris et al.[14]提出了一种端到端联合训练超分辨率和检测模型的模型，但是对与检测任务无关的大量图像执行超分辨率仍然是低效的。SOD-MTGAN[1]不是对整个图像进行超分辨，而是先将RoI池化，然后使用这些池化的roi训练超分辨模型。虽然他们的工作通过只关注roi来解决这两个问题，但仍然没有考虑roi的上下文信息。

高分辨率特征：感知GAN是一种显著的特征级超分辨率小目标检测方法。由于它只关注RoI的特性，所以不存在图像级超分辨率的两个问题。此外，由于这些特征是通过与较大的接收域卷积来提取的，所以SOD-MTGAN[1]的问题也得到了缓解。然而，由于缺乏直接监督，其超分辨率训练可能不稳定;没有训练低分辨率RoI特征对及其对应的高分辨率特征对。相反，它隐含地利用了分类、本地化和对抗性损失。对于图像检索任务，Tan等人在训练特征级超分辨率模型时加入了特征级L2损失。他们报告说，增加这种更强的约束有助于生成网络产生更快收敛的更好的特征。然而，我们观察到在[34]中这样的直接监督对目标检测是不够的，因为它可能会由于高分辨率和低分辨率特征之间的相对接受域不匹配而误导超分辨率过程。在第3节中，我们将进一步阐述这个问题。

纹理信息：许多研究已经经验证明，上下文信息也有助于检测小目标。如[27]所示，CNNs中来自顶层的特征足够捕获大目标，但太粗糙，无法检测小目标;而来自底层的特征包含的局部信息太具体，对检测大目标没有帮助，但对检测小目标有帮助。因此，许多方法[2,33,25,9,35]使用额外的层来从多个层构建上下文特性。使用上下文的另一个简单方法是在RoI集中时也考虑附近的区域。Hu等人利用[19]提取周围区域和roi来检测人脸，因为知道附近区域存在人体是有帮助的。还研究了目标之间的关系信息，以增强检测模型[18,7,4]。最后，一些研究[3,36,37,13]建议使用卷积和非卷积层的混合来更好地分割小目标，因为非卷积层覆盖了更大的接收域，而不会丢失分辨率。由于这一特性，我们也使用了卷积层来匹配高分辨率和低分辨率特征之间的相对接受域。第3节提供了更详细的解释。

3、相对感受野不匹配

4、本文的方法

提出了一种基于两个关键思想的小目标检测特征超分辨方法:(1)直接监督超分辨发生器;(2)通过卷积进行接收域匹配。在基本检测模型的基础上，我们引入了四个附加组件:SR特征发生器和鉴别器、SR目标提取器和小预测器。SR特征发生器作为一种基于GAN的模型，利用SR目标提取器的特征作为目标，在SR特征鉴别器的引导下产生高分辨率的特征。此外，小的预测器是基本检测器中预测器的复制，我们称之为大预测器。大预测器对大建议进行分类和定位的置信度的计算与普通检测器相同，而小预测器对小建议执行相同的任务，这些小建议首先由SR特征生成器进行增强。我们为小型提案设定的门槛为:清华-腾讯(Tsinghua-Tencent)为32×32,VOC和COCO数据集为96×96。图3显示了我们模型的整体架构。我们解释了基于Faster R-CNN[31]的模型，尽管我们的方法可以与任何基于特征池的提议检测器集成。

4.1、超分目标提取器

4.2、超分特征生成器

4.3、训练

4.4、推断

5、实验

我们评估了我们的方法在速度Faster R-CNN上的性能，作为各种各样的基础网络(ResNet-50, ResNet-101，和MobileNet)在三个基准数据集上的清华-腾讯100K， PASCAL VOC和MS COCO。我们在补充文件中提供了更多的实验结果和分析。

5.1、清华-腾讯100K结果

清华-腾讯100K[38]是一个大型的交通标志基准，由于天气和复杂的背景造成了严重的照度变化。它提供了一个真实世界中的交通标志数据集，其中目标对象的大小与图像大小相比非常小(2048×2048)。数据集有6K个训练图像和3K个测试图像。它对数据大小的划分与MS COCO相同，分为小(面积≤32×32)、中(32×32 <面积≤96×96)和大(面积> 96×96)目标。小、中、大物体的比例分别为(42,50,8)%。由于小目标占主导地位，清华-腾讯100K是验证小目标检测性能的最佳基准之一。

评价措施：遵循[38]协议，我们对182个类中包含100多个实例的45个类进行评估。虽然在[38]中只报告了大小方面的召回和准确性，但我们还报告了F1分数，因为它们可以平衡这两个指标。如果IoU的groundtruth大于或等于0.5，则该检测被视为正确。定量的结果：我们将模型的性能与前面指定的三个基本模型进行比较。我们将小提案的大小设置为32×32;只有面积小于阈值的建议才被视为超分辨率模型的输入。

表1总结了在TsinghuaTencent 100K测试数据集上的性能。我们将输入图像的大小从2048调整到1600，以使学习和推断更快，就像在[23]中一样。通过我们的方法，性能的提高在小(75.2→84.3在F1评分与ResNet-101)，中等(92.2→94.6)和大目标(92.2→93.2)的顺序是显著的。对于不同的CNN骨架，对于小目标的大的改进是一致的，例如对于MobileNet的63.4→71.0，对于ResNet-50的74.9→82.2。

有一点值得注意的是，虽然我们只对小的建议进行了超分解，但我们也获得了中、大型目标的性能增益。这可能是因为大型预测器在没有考虑小建议的情况下进行了微调，这有助于将其建模能力集中在中型和大型目标上。改进中等子集的另一个原因是，由于在最后一步中添加到建议的偏移量，最终落在中等子集中的一些建议是使用小型预测器进行预测的。考虑到大约14%的目标在32×32和40×40之间，这可能是一个合理的原因来解释中等子集的性能提升。

和最先进的方法的比较：表2显示，我们提出的模型在清华-腾讯100K数据集上实现了最新的性能。在这些实验中，我们使用ResNet-101作为原始尺寸图像的主干来训练我们的模型。在所有的子集，我们的表现优于所有以前的先进模式，特别是在F1得分方面。

5.2、在PASCAL VOC和COCO上的结果

我们也在PASCAL VOC和MS COCO上评估我们的模型，虽然这些基准中小目标的比例远低于清华-腾讯100K。PASCAL VOC包含20个目标类别，2007年有5K trainval和5K测试图片，2012年有11K trainval图片。我们使用2007年的trainval 2012年的trainval进行培训，使用2007年的test set进行测试。COCO 2017包含80个目标类别，115K的火车，5K的val和20K的testdev图像。我们使用训练集，而val和测试开发集用于测试。我们在补充资料中补充了val集的结果。评价措施。对于PASCAL VOC，我们使用mAP@.5个度量，这是所有类的平均AP，当匹配IoU阈值与groundtruth大于或等于0.5时。对于COCO女士，我们使用的是map@ .95，这是在0.5到0.95之间的不同匹配IoU阈值上的平均映射。我们还根据目标大小将PASCAL VOC的结果分为三类;小型(AP-S)，中型(AP-M)和大型(AP-L)，如MS COCO。对于小的提案，我们设置了96×96的门槛，因为目标的大小比清华-腾讯100K大得多。

定量的结果：表3比较了我们的模型与VOC 2007测试基线和COCO 2017测试基线的性能。我们观察到与清华大学100K类似的趋势，即检测增强在小、中、大目标的顺序中更为显著。

5.3、和超分方法的比较

在本节中，我们进行了消融研究，定量和定性地分析了不同的超分辨率方法。我们使用ResNet-50作为CNN的主干。我们比较了我们的超分辨率方法与两个较差的变体;(1)老没有监督:模型没有内容的损失(

)和(2)SR监督：督模型训练使用目标特性的基本特征提取器,而不是我们的老目标器。表4比较了不同超分辨率车型在清华-腾讯100K上的F1成绩。与基本模型相比，其他两个SR变种只能获得有限的性能收益。另一方面，我们的SR模型获得了显著的性能收益，特别是对于小子集。老这里的话是没有监督执行比SR和初始监督,这意味着RRF的监督由于不匹配不当可能会降低性能。图6定性地显示了我们的模型在特征级超分辨率方面优于SR的优势。

5.4、定性的结果

图7显示了一些选定的检测结果。对于每一对，我们显示基本检测器的结果(左)和我们的方法(右)。与基本模型相比，该方法能更好地检测小目标，具有较高的可信度。我们提供了更多的定性结果，包括接近失败的案例在补充文件。

6、结论

提出了一种基于特征级超分辨率的小目标检测方法。我们的方法适用于任何基于特征池的检测器。在清华-腾讯100K、PASCAL VOC和MS COCO基准上的实验验证了我们的超分辨率方法确实能够有效地检测小目标。特别是，我们的工作证明了使用适当的高分辨率目标特征提供直接监督是重要的，这些特征与低分辨率输入特征共享相同的相对接受域。作为未来的工作，我们的模型可以通过以下几种方式进一步增强。首先，我们可以采用图像超分辨率任务中开发的最新模型来更新SR特征生成器。其次，可以自适应地选择超分辨率。虽然我们在这项工作中只使用固定的比率2，但最佳比率可能取决于RoI的特性。

神经网络机器学习深度学习人工智能图像识别

0 人点赞