以往的2D目标检测研究侧重于各种任务,包括在通用和伪装图像中检测目标。这些工作被认为是目标检测的被动方法,因为它们直接使用输入图像。然而,在神经网络中,不能保证收敛到全局最小值就一定是最优的; 因此,作者认为目标检测器中训练得到的权重不是最优的。为了解决这个问题,作者提出了一种基于主动方案的Wrapper,称为PrObeD,通过学习信号来增强这些目标检测器的性能。 PrObeD由编码器-解码器架构组成,其中编码器网络生成一个称为"模板"的依赖于图像的信号,用于加密输入图像,而解码器从加密图像中恢复出这个模板。作者提出,学习最佳的模板会导致具有改进检测性能的目标检测器。这个模板充当输入图像的Mask,突出了对目标检测有用的语义信息。使用这些加密图像对目标检测器进行微调可以提高通用和伪装图像的检测性能。 作者在MS-COCO、CAMO、COD10K和NC4K数据集上的实验证明,在应用PrObeD后,各种检测器都有所改进。 模型和代码:https://github.com/vishal3477/Proactive-Object-Detection
1. 简介
通用的2D目标检测(GOD)已经从早期的传统检测器发展到基于深度学习的目标检测器。深度学习方法的发展在近年来经历了许多架构上的变化,包括单阶段,两阶段,基于CNN的,基于Transformer的,以及基于扩散的方法。所有这些方法的目标都是预测图像中目标的2D边界框和它们的类别。
与通用目标检测相关的另一个新兴领域是伪装目标检测(COD)。COD旨在通过目标级别的遮罩监督检测和分割与背景融合的目标。COD的应用包括医疗、监控和自动驾驶。早期的COD检测器利用手工制作的特征和光流,而当前的方法是基于深度学习的。这些方法利用注意力、联合学习、图像梯度和Transformer。所有这些方法都将输入图像直接用于检测任务,因此被称为被动方法。
然而,有一系列关于广泛的视觉任务的主动方法的研究,例如干扰、标记、操纵检测和定位。主动方法使用称为"模板"的信号来加密输入图像,并将加密后的图像作为网络的输入。这些方法通过使用固定的模板或可学习的模板以端到端的方式进行训练,以提高性能。
主动方案的一个主要优势是,这些方法在未知数据/模型上有更好的泛化性能。受到这一观点的启发,作者提出了一种即插即用的主动目标检测Wrapper PrObeD,以改进GOD和COD检测器。
将PrObeD设计为主动方案涉及到一些挑战和关键因素。首先,主动Wrapper需要是一个即插即用的模块,可应用于GOD和COD检测器。其次,加密过程应该对目标检测任务有益且直观,例如,用于检测的理想模板应该突出显示输入图像中的前景目标。最后,难以确定用于估计加密模板的监督方式。
以前的主动方法对于操纵和定位任务使用可学习但不依赖于图像的模板。然而,目标检测任务是特定于场景的;因此,理想的模板应该依赖于图像。基于这一关键观点,作者提出了一种新颖的即插即用的主动Wrapper,作者将其中使用目标检测器来增强检测性能。
PrObeD Wrapper利用编码器网络来学习一个依赖于图像的模板。学习的模板通过将模板与输入图像进行逐元素相乘来加密输入图像。解码器网络从加密图像中恢复模板。作者利用回归损失进行监督,并利用GT目标地图来引导学习过程,从而将宝贵的目标语义信息融入到模板中。然后,作者对GOD和COD检测器进行微调,以提高它们的检测性能。在MS-COCO、CAMO、COD10K和NC4K数据集上进行的大量实验证明,PrObeD提高了GOD和COD检测器的检测性能。
总之,本研究的贡献包括:
- 提出了一种新颖的主动方法PrObeD,用于目标检测任务。据作者所知,这是第一项开发用于2D目标检测的主动方法。
- 在数学上证明了在一定假设下,主动方法会比被动检测器产生更好的收敛模型,从而得到更好的目标检测器。
- PrObeD包装适用于GOD和COD检测器,并在MS-COCO、CAMO、COD10K和NC4K数据集上提高了检测性能。
2 提出的方法
作者的方法源于对主动方案有效性的理解。作者首先在第3.1节中概述了两个检测问题:GOD和COD。接下来,作者推导了引理1,在其中通过比较经过训练的网络权重与最优权重的偏差,展示了通过对图像进行乘法变换的主动方案优于被动方案。
基于这个结果,作者推导出了主动模型的平均精度(AP)优于被动模型的AP的定理1。最后,在第3.3节中,作者提出了作者基于主动方案的Wrapper PrObeD,该Wrapper建立在定理1的基础上,用于改进通用2D目标和伪装检测。
2.1 背景
2.1.1 被动目标检测
尽管通用的2D目标检测和伪装目标检测问题相似,但它们具有不同的目标函数。因此,作者将它们视为两个不同的问题,并分别定义它们的目标。
通用2D目标检测
设
是提供给具有可训练参数
的通用2D目标检测器O的输入图像集。大多数这些检测器对每个图像输出两组预测:
- 边界框坐标,
- 类别逻辑,
,其中N是前景目标类别的数量。如果GT边界框坐标为
,GT类别标签为C,则此类检测器的目标函数为:
伪装目标检测
设
是提供给具有可训练参数
的伪装目标检测器O的输入图像集,
是GT分割图。以前的被动作品使用以下目标来预测分割图:
2.1.2 主动目标检测
主动方案使用模板对输入图像进行加密,以帮助检测操作和本地化。这些方案采用输入图像
并学习一个模板
。PrObeD使用依赖于图像的模板来改进目标检测。
给定输入图像
,PrObeD学习输出模板
,该模板可以由变换
使用,该变换定义为模板与输入图像的逐元素乘法。
2.2 被动和主动检测器的数学分析
PrObeD优化模板以改进目标检测性能。作者认为这个模板有助于获得更好的全局最小值,代表了最优参数
。作者现在定义以下引理来支持作者的论点:
引理1. 主动和被动检测器的权重收敛。考虑一个线性回归模型,该模型在加性噪声设置下回归输入图像
以获得2D坐标。假设考虑的噪声e是正态分布的随机变量
。让
和
分别表示预训练线性回归模型的训练权重和线性回归模型的最优权重。还假设SGD通过使用逐渐减小的步长s来优化模型参数,使步长平方可加和,即
存在,并且噪声与图像独立。那么,存在一个模板
,用于图像
,使图像的乘法变换作为输入导致训练后的权重
比最初训练的权重
更接近最优权重。 换句话说,
引理1的证明在论文的附录中。作者使用加密图像梯度的方差来得出这个引理。接下来,作者使用引理1推导以下定理:
定理1. 主动和被动检测器的AP比较。考虑一个线性回归模型,该模型在加性噪声设置下回归输入图像
以获得2D坐标。假设考虑的噪声
是正态分布的随机变量
。让
和
分别表示预训练线性回归模型的训练权重和线性回归模型的最优权重。 还假设SGD通过使用逐渐减小的步长s来优化模型参数,使步长平方可加和,即
存在,并且噪声与图像独立。然后,主动检测器的AP优于被动检测器的AP。
定理1的证明在附录中。作者使用引理1和AP相对于IoU的非减性质来得出这个定理。接下来,作者通过以下方式调整Eqs的目标。 (1)和(2)来纳入主动方法:
2.3 PrObeD
作者提出的方法包括3个阶段:模板生成、模板恢复和检测器微调。
- 首先,作者使用编码器网络生成图像相关的模板,用于图像加密
- 然后,通过解码器网络进一步用加密的图像恢复模板
- 最后,使用加密图像微调目标检测器
所有三个阶段都以端到端的方式进行训练。虽然所有阶段都用于训练PrObeD,但作者仅在推断时使用第1和第3阶段。
2.3.1 主动Wrapper
作者提出的方法包括三个阶段,如图2所示。然而,作者提出的主动Wrapper仅包括前两个阶段,可应用于目标检测器以改善其性能。
第1阶段:模板生成
以前的工作在其主动方案中学习一组模板。这组模板足以执行各自的下游任务,因为生成模型会操作模板,这易于使用一组可学习的模板捕获。然而,对于目标检测任务,每个图像都具有独特的目标特征,如大小、外观和颜色,可能会有显着差异。
图像中的这种可变性可能超过了有限模板集的描述能力,因此需要使用特定于图像的模板,以准确表示每个图像中存在的目标特征范围。换句话说,一组固定的模板可能不足够灵活,无法捕捉给定输入图像集中的视觉特征的多样性,因此需要更具适应性的依赖于图像的模板。
受到上述观点的启发,作者提出使用编码器网络为每个图像生成模板
。作者假设突出显示关键前景目标的区域对于目标检测是有益的。因此,对于GOD,作者使用GT边界框
来生成伪GT分割图。
具体来说,对于任何图像
,如果边界框坐标为
,作者将伪GT分割图定义为:
然而,对于COD,数据集已经具有GT分割图
,作者将其用作编码器的监督,以输出带有图像语义信息的模板,以便受限于检测器感兴趣区域的图像。
对于GOD和COD,作者最小化模板
与
之间的余弦相似性(Cos)作为编码器网络的监督。编码器损失
如下所示:
这生成的模板充当输入图像的蒙版,以突出检测器感兴趣的目标区域。作者使用这个模板和变换T将输入图像加密为
。由于作者从预训练的目标检测器O的模型开始,作者将编码器的最后一层的偏置初始化为0,以确保在前几次迭代中
。这是为了确保
和
的分布在前几次迭代中保持相似,O不会遇到输入分布的突然变化。
第2阶段:模板恢复
到目前为止,作者已经讨论了使用编码器E生成模板Sj的生成,这将用作加密输入图像的蒙版。加密图像用于两个目的:(1)恢复模板和(2)微调目标检测器。从加密图像中恢复模板的主要思想来自先前关于图像隐写分析和主动方案的工作。
受到这些工作的启发,作者得出以下洞察:为了正确学习最佳模板并将其嵌入到输入图像上,从加密图像中恢复模板是有益的
为了执行恢复,作者利用编码器-解码器方法。使用这种方法利用编码器网络E提取特征,捕获最有用的显着细节,以及解码器网络D用于信息恢复,实现了模板的高效和有效的加密和解密。作者还在经验上证明,不使用解码器来恢复模板会损害目标检测性能。
为了监督解码器D从
中恢复
,作者提出最大化恢复模板
和
之间的余弦相似性。解码器损失如下:
第3阶段:检测器微调
由于作者的加密,输入到预训练O的图像分布发生了变化。因此,作者在加密图像
上对预训练的O进行微调。如定理1所提出,给定加密图像
,作者使用带有参数
的预训练检测器O来达到更好的局部最小值。因此,GOD和COD的一般目标在Eq中发生变化。 (5)和Eq。 (6)如下:
作者使用O的特定于检测器的损失函数
,以及Eq. (7)和Eq. (8)中的编码器和解码器损失来训练所有三个阶段。训练PrObeD的总损失函数
如下:
3. 实验
量化结果
表2显示了在GOD网络上应用PrObeD的结果。 PrObeD改善了所有三个检测器的平均精度。
对于Faster R-CNN,性能提升明显。由于Faster R-CNN是一个较旧的检测器,它最初处于较差的最小值。 PrObeD显着提高了Faster R-CNN的收敛权重,从而提高了性能。作者进一步对Faster R-CNN的两个变种进行实验,即Faster R-CNN FPN和Sparse-RCNN。作者观察到两个检测器的性能均有所提高。
PrObeD还改善了像YOLOv5和DeTR这样的新检测器的性能,尽管与Faster R-CNN相比,收益较小。作者认为这是因为新检测器的改进空间有限,因此PrObeD稍微提高了性能。接下来,作者将PrObeD与一项利用分割图作为目标检测Mask的工作进行比较。作者将作者的性能与使用图像分割分支来帮助目标检测的Mask R-CNN进行比较。表2显示,使用Mask R-CNN的性能低于使用作者的主动Wrapper。
定性结果
图3显示了MS-COCO 2017数据集的定性结果。 PrObeD明显改善了预训练的Faster R-CNN的性能,包括错过的预测、假阴性和定位错误。 PrObeD的错过预测较少,假阳性较少,并且边界框定位更准确。作者还可视化生成和恢复的模板。作者看到模板具有输入图像的目标语义。当模板与输入图像相乘时,它突出了前景目标,从而使目标检测任务更容易。
错误分析
作者展示了GOD部分的错误分析,见补充材料第4部分。作者观察到所有GOD检测器主要由于五种类型的错误而出现错误:分类、定位、重复检测、背景检测和错过检测。
性能下降的主要原因是错过前景-背景边界。这些错误包括定位、背景检测和错过检测。作者的主动包装明显纠正了这些错误,因为模板具有目标语义,与输入图像相乘后,强调了前景目标,从而简化了目标检测任务。
COD结果
定量结果
表3显示了将PrObeD应用于DGNet在三个不同数据集上的结果。将PrObeD应用于DGNet后,所有数据集的所有四个指标的性能均优于DGNet。性能提升最大的出现在COD10K和NC4K数据集中。这是令人印象深刻的,因为这些数据集的测试图像比CAMO数据集更多样。
由于NC4K只是一个测试集,PrObeD的性能更高表明其相对于DGNet具有更强的泛化性。这个结果与[1, 2]中的观察一致,在那里基于主动方法的方法在操作检测和定位任务上表现出了改进的泛化性。
定性结果
图4显示了在三个数据集的测试样本上,将PrObeD应用于DGNet之前和之后的预测伪装地图的可视化结果。PrObeD改善了预测的伪装地图,边界模糊较少,并更好地定位了伪装目标。
与GOD之前观察到的情况一样,生成和恢复的模板具有伪装目标的语义,经过乘法后,强化了前景目标,从而由DGNet更好地进行分割。
消融研究
与主动性研究的比较
以前的主动性研究执行图像操作检测和定位等不同任务。因此,这些研究无法直接与作者提出的主动包装进行比较,因为作者的主动包装执行不同的目标检测任务,如表1所述。
但是,操作定位和COD都涉及到对定位地图、分割和伪造地图进行预测。这启发作者尝试使用MaLP来执行COD任务。作者训练了MaLP的定位模块,并使用COD数据集进行监督。
结果如表4所示。作者看到MaLP在所有三个数据集上表现不佳。MaLP设计用于估计通用模板,而不是适用于特定图像的模板。这显示了目标检测中图像特定模板的重要性。虽然MaLP的设计具有图像无关的模板,对于定位图像操作是有效的,但将其应用于目标检测对性能产生了负面影响。
框架设计
PrObeD由不同模块组成,用于改进目标检测器。表5列出了PrObeD的不同版本,以突出设计中每个模块的重要性。PrObeD使用编码器网络E来学习有助于检测器的图像特定模板。作者从网络中删除编码器E,用固定模板替换它。作者观察到性能大幅下降。
接下来,作者将此模板设置为可学习,如PrObeD中所提出的,但只使用一个模板用于所有输入图像。此选择还导致性能下降,突显了目标检测需要图像特定模板。
最后,作者移除解码器网络D,用于从加密图像中恢复模板。尽管这比预训练的Faster R-CNN表现更好,但与PrObeD相比,性能下降。因此,如3.3节所讨论的,恢复模板的确是提升主动性方案性能的必要和有益步骤。
加密过程
PrObeD包括加密过程,如Eq. (3)所述,涉及将模板与输入图像相乘。这个过程使模板充当Mask,突出前景以获得更好的检测结果。然而,以前的主动性研究[1, 2]考虑添加模板以获得更好的结果。因此,作者通过将加密过程更改为添加模板来消融。
表5显示,相对于作者的乘法方案,使用模板添加会大幅降低性能。这表明加密是构建主动性方案的关键步骤,而相同的加密过程可能不适用于所有任务。
更多的训练时间
作者执行了一项消融研究,以显示检测器的性能提升是由于作者的主动包装而不是通过训练更多迭代的预训练目标检测器。
表6中的结果表明,尽管对检测器进行更多的训练迭代会提高性能,但与PrObeD所实现的性能显著差距不大。这表明额外的训练可以提供帮助,但只能提高到一定程度。
推理时间
作者评估了在不同目标检测器上应用PrObeD后的计算成本,结果如表6所示,平均在一台NVIDIA V 100 GPU上的1,000张图像上。作者的编码器网络有17层,这增加了推理的额外成本。
对于具有庞大架构的检测器,如Faster R-CNN(ResNet101)和DeTR(transformer),额外的计算成本相当小,分别为8.7%和7.2%。
与检测器的性能增益相比,这种额外成本是微不足道的,特别是对于Faster R-CNN。对于像YOLOv5这样的轻型检测器,作者的额外计算成本增加到29.1%。
因此,在应用PrObeD到不同架构的检测器时存在权衡。与庞大的检测器,如两阶段/transformer型检测器相比,PrObeD对性能更有益。
参考
[1]. PrObeD: Proactive Object Detection Wrapper.