Prior-based Domain Adaptive Object Detection for Hazy

2022-09-02 21:46:52 浏览数 (1)

摘要

恶劣的天气条件,如雾霾和雨水,会破坏捕获图像的质量,导致训练在干净图像上的检测网络在这些图像上表现不佳。为了解决这一问题,我们提出了一种无监督的基于先验的领域对抗目标检测框架,使检测器适应于雾蒙蒙和多雨的条件。基于这些因素,我们利用利用图像形成原理获得的特定天气的先验知识来定义一个新的先验-对抗性损失。用于训练适应过程的前对抗性损失旨在减少特征中与天气相关的信息,从而减轻天气对检测性能的影响。此外,我们在目标检测管道中引入了一组残差特征恢复块来消除特征空间的扭曲,从而得到进一步的改进。针对不同情况(如霾、雨),在不同数据集(雾城景观、雨城景观、RTTS和UFDD)上进行的评估显示了所提方法的有效性。

1、简介

目标检测[53,12,17,16,34,43]是文献中被广泛研究的课题。尽管基于深度学习的检测器在基准数据集上取得了成功[10,9,15,33],但它们在归纳几种实际情况(如恶劣天气)方面的能力有限。最近,一些真实世界的视觉应用,如自主导航[41,26,32,55],基于无人机的监视[40,62]和视频监视/取证[6,3]得到了极大的兴趣。在这些应用中,物体探测器是一个重要的支柱,因此,即使在恶劣的天气条件下,探测器也必须可靠地工作。与一般的目标检测问题相比,对探测器适应恶劣天气条件的研究相对较少。

解决这个问题的一种方法是使用现有的方法对图像进行预处理,如图像去雾[11,20,60]和/或去雾[30,59,58],从而消除天气条件的影响。然而,这些方法通常涉及复杂的网络,需要在像素级监督下单独训练。此外,如[47]中所述,这些方法还涉及某些后处理,如伽马校正,这仍然会导致域偏移,因此,这些方法无法实现最佳性能。和[47]一样,当我们使用最先进的dehaze/derain方法作为检测前的预处理步骤时,我们观察到在检测性能上的微小改进(见第4节)。此外,这种额外的预处理将导致推理时计算开销的增加,这在资源受限/实时应用程序中并不可取。另一种方法是在包含这些不利条件的数据集上重新训练探测器。然而,创建这些数据集通常需要很高的标注/标签成本。

最近,一些方法[5,49,45]试图克服这个问题,将恶劣天气条件下的目标检测视为一项无监督的领域适应任务。这些方法认为,与训练探测器的图像(源图像)相比,在不利条件下捕获的图像(目标图像)存在分布偏移[5,18]。假设源图像被完全注释,而目标图像(基于天气的退化)没有注释。他们提出了在对源图像进行训练的同时,将目标特征与源特征进行对齐的不同技术。这些方法在其方法中存在固有的局限性,因为它们只使用领域适应的原则,而忽略了在基于天气的退化情况下现成的附加信息。

我们考虑以下关于基于天气的退化的观察,这些观察在早期的工作中被忽略了。(i)在天气条件(如霾和雨)下捕获的图像可以进行数学建模(见图1(a), Eq. 8和9)。例如,一个模糊图像是由干净图像(经过透射图衰减)和大气光叠加而成的[11,20]。同样,雨天图像被建模为干净图像和雨残图像的叠加[30,58,59](见图1(a))。换句话说,受天气影响的图像包含特定的天气信息(我们称之为先验)——如有模糊图像,则包含传输图;如有雨图像,则包含雨残留。这些特定于天气的信息/先验原因在特征空间中退化,导致较差的检测性能。因此,为了减少特征的退化,关键是通过消除特征中与天气相关的先验,使特征具有天气不变性。(ii)此外,必须指出的是,基于天气的退化在空间上是不同的,因此对所有空间位置的特征的影响并不相同。由于现有的域自适应检测方法[5,49,45]将所有位置全部标记为目标,假设整个图像不断退化,所有空间位置受到同等影响(图1(b))。这将导致不正确的对齐,特别是在图像的退化最小的区域。

基于这些观察结果,我们定义了一种新的前对抗式损失,它使用关于目标域(受天气影响的图像)的额外知识来对齐源和目标特征。具体来说,建议的损失被用来训练一个先验估计网络,从主要分支的特征中预测特定天气的先验,同时最小化特征中呈现的特定天气信息。这将在主分支中产生天气不变特性,从而减轻天气的影响。此外,在损失函数中使用先验信息会导致与退化量直接相关的空间变化损失(如图1(b)所示)。因此,使用prior可以避免不正确的对齐。

最后,考虑到基于天气的退化会导致特征空间的扭曲,我们在目标检测管道中引入一组残差特征恢复块来消除特征的扭曲。这些块受到了[21]中剩余转移框架的启发,得到了进一步的改进。我们对不同的数据集进行了广泛的评估,如雾都景观[47]、RTTS[28]和UFDD[39]。此外,我们还创建了一个雨城景观数据集,用于评估不同检测方法在雨天情况下的性能。各种实验表明,该方法在所有数据集上的性能都优于现有方法。

2、相关工作

目标检测:目标检测是计算机视觉研究的热点之一。这个问题的典型解决方案已经从基于滑动窗口分类的方法[53,8]发展到最新的基于锚的卷积神经网络方法[43,42,34]。Ren等人开创了流行的两阶段快速- rcnn方法。一些作品提出了单阶段框架,如SSD [34], YOLO[42]等,可以直接预测对象标签和边框坐标。在之前的工作[5,49,45,25,24]之后,我们使用Faster-RCNN作为基础模型。

无监督域适配:无监督域适应定义为具有不同分布的对齐域,即源域和目标域。假设源数据集中的图像具有注释,而不提供目标图像的注释信息。最近提出的一些无监督域自适应方法包括特征分布对齐[52,14,50,46],残差转移[36,37]和图像到图像的平移方法[23,38,22,48]。在特征分布对齐中,利用敌对目标学习领域不变特征。通常,这些方法使用梯度反转层实现,特征生成器和领域分类器进行对抗式博弈,生成与源特征分布一致的目标特征。非监督域自适应的研究大多集中在分类/分割问题上,而诸如目标检测等任务则相对缺乏探索。

对抗条件下的域适配目标检测:与一般的检测问题相比,在恶劣天气条件下的检测探索相对较少。现有的方法[5,49,45,25]试图从领域适应的角度来解决这一任务。Chen等人[5]假设不利的天气条件会导致域漂移,他们提出了一种域自适应快速R-CNN方法来克服这一问题,该方法在图像级和实例级处理域漂移。Shan等[49]提出在图像层面使用Cycle-GAN框架进行联合自适应[61],在特征层面使用传统的域自适应损失进行联合自适应。Saito等人[45]认为,在全球层面上,特征的强对齐可能会影响检测性能。因此,他们提出了一种局部特征强对齐和全局特征弱对齐的方法。Kim等人[25]对标记数据进行多样化处理,然后利用多域鉴别器进行对敌学习。Cai等[4]在半监督设置中使用mean teacher framework解决了这一问题。Zhu等人[63]提出了区域挖掘和区域级对齐,以正确对齐源和目标特征。Roychowdhury等人的[44]使检测器适应于一个新的域,假设有来自目标域的大量视频数据可用。这些视频数据被用来生成目标集的伪标签,这些伪标签被用来训练网络。最近,Khodabandeh等人[24]用噪声标签表述了领域适应训练。具体来说,该模型在目标域上使用一组噪声边界盒进行训练,这些边界盒由仅在源域上训练的检测模型得到。

3、提出的方法

3.1、检测网络

遵循现有的域自适应检测方法[5,49,45],我们的方法基于Faster-RCNN[43]框架。Faster-RCNN是最早的基于端到端CNN的目标检测方法之一,使用基于锚的策略进行检测和分类。本文将Faster-RCNN分解为特征提取网络(F)、区域建议网络(RPN)和区域分类网络(RCN)三个网络模块。这些模块的布局如图2所示,VGG模型架构为基础网络。这里,特征提取器网络由VGG的前5个conv块组成,区域分类网络模块由VGG的全连通层组成。区域建议网络利用特征提取网络的输出,以类不可知的方式生成一组候选目标区域。从特征提取器中汇集与候选特征相对应的特征,通过区域分类网络转发,得到目标分类和边界盒细化。由于我们可以访问源域图像及其对应的ground truth,我们训练这些网络通过最小化以下损失函数来对源域进行检测,

3.2、Prior-adversarial训练

如前所述,受天气影响的图像包含特定领域的信息。这些图像通常遵循图像退化的数学模型(见图1(a), Eq. 8和Eq. 9)。我们将该领域的特定信息作为先验。关于之前的雾霾和雨的详细讨论将在本节的后面提供。我们的目标是利用这些天气领域的先验,以更好地适应探测器天气影响的图像。为此,我们提出了一种基于先验的对敌训练方法,该方法使用先验估计网络(PEN)和先验对敌损失(PAL)。

先验估计网络(P5和P4)从从F中提取的特征中预测特定天气的先验,然而,特征提取网络F(不包含特定天气的先验)并阻止PEN模块正确估计特定天气的先验。由于这种类型的训练包括预先预测,也让人想起领域适应中使用的对抗性学习,我们将这种损失称为预先对抗性损失。在收敛时,特征提取器网络F应该没有任何特定天气信息,因此先验估计网络P5和P4都不能正确估计先验。请注意,我们的收敛目标不是估计正确的先验,而是学习天气不变特征,以便检测网络能够很好地推广到目标域。该训练过程可表示为如下优化:

max _{mathcal{F}} min _{mathcal{P}} mathcal{L}_{text {pal }}^{s r c} mathcal{L}_{text {pal }}^{t g t}

此外,在传统的区域自适应中,为整个目标图像分配一个单一的标签来训练区域鉴别器(图1)(c))。这样做,就假定整个图像经历了恒定的域位移。然而,这在受天气影响的图像中是不正确的,因为退化随空间变化(图1)(b))。在这种情况下,定域位移的假设会导致不正确的对齐,特别是在退化最小的区域。结合特定天气先验克服了这个问题,因为这些先验是随空间变化的,并且与退化量直接相关。因此,利用特定天气的先验结果来更好地对齐。

雾霾先验:霾对图像的影响在文献[11,20,60,31]中得到了广泛的研究。现有的图像去雾方法大多依赖于大气散射模型来表示雾天条件下的图像退化,其定义为:

I(z)=J(z) t(z) A(z)(1-t(z))

其中I为观测到的模糊图像,J为真实场景亮度,A为全局大气光,表示环境光强度,t为透射图,z为像素位置。透射图是一个依赖于距离的因素,它影响到达相机传感器的光的比例。当大气光A为均匀时,透射图可以表示为

t(z)=e^{-beta d(z)}

通常,现有的去雾方法首先估计透射图和大气光,然后在公式(8)中使用它们来恢复观测到的亮度或干净图像。透射图包含了关于雾域的重要信息,具体地表示了光的衰减因子。我们使用这种传输作为域先验来监督先验估计(PEN),同时适应模糊的条件。此外,我们使用[20]之前的暗信道,而不是依赖于实际的地面真值传输图。

雨先验:与去雾类似,图像去雾方法也假设一个数学模型来表示退化过程,定义如下:

I(z)=J(z) R(z)

其中I为观测到的雨天图像,J为期望的干净图像,R为雨残差。该公式将雨景图像建模为干净的背景图像与雨残体的叠加。雨残点包含了特定图像的特定区域雨残点信息,因此,在适应雨天条件的同时,可以作为区域特定先验来监测先验估计网络(PEN)。类似于雾霾,我们不依赖地面的真实降雨残留物。相反,我们使用[30]中预先描述的雨层来估计雨残量,从而避免了使用昂贵的人工注释来获得雨残量。在上面讨论的两种情况(雾霾先验和雨先验)中,我们不使用任何地面真值标签来估计各自的先验。因此,我们的总体方法仍然属于无监督的适应。此外,可以对训练图像预先计算这些先验,以减少学习过程中的计算开销。此外,推理过程中不需要预先计算,因此,所提出的自适应方法不会造成任何计算开销。

3.2、残差特征恢复模块

如前所述,天气退化会在特征空间中引入失真。在目标前馈管道中引入了一组残差特征恢复块(RFRBs)来辅助去失真处理。这是受到了[36]中剩余传输网络方法的启发。设∆Fl为第l个卷积块处的残差特征恢复块。对目标域图像前馈进行改进,加入残差特征恢复块。对于∆Fl,第l个卷积块处的前馈方程为:

hat{mathcal{F}}_{l}left(x_{i}^{t}right)=mathcal{F}_{l}left(x_{i}^{t}right) Delta mathcal{F}_{l}left(mathcal{F}_{l-1}left(x_{i}^{t}right)right)

mathcal{L}_{text {reg }}=frac{1}{n_{t}} sum_{i=1}^{n_{t}} sum_{l=4,5}left|Delta mathcal{F}_{l}left(mathcal{F}_{l-1}left(x_{i}^{t}right)right)right|_{1}

3.4、整体的损失

4、实验和结果

4.1、实验细节

我们采用[45,5]的训练协议来训练Faster-RCNN网络。所有实验的骨干网络为VGG16网络[51]。我们使用RFRB对VGG16网络的卷积块C4和C5进行残差建模。PA损失只适用于这些用RFRBs建模的conv块。PA损失的设计是基于适应设置(雾或雨)。前两个conv块的参数被冻结,类似于[45,5]。在补充资料中提供了RFRBs、笔和鉴别器的详细网络架构。在训练过程中,我们通过ROI对齐将图像较短的一侧设置为600。我们对所有网络进行70K次迭代训练。对于前50K次迭代,学习率设置为0.001,对于后20K次迭代,学习率设置为0.0001。我们报告了70K次迭代后基于训练模型的性能。对于所有的实验,我们都将其设置为等于0.1。除了与最近的方法进行比较外,我们还进行了消融研究,评估以下配置,以分析网络中不同组件的有效性。请注意,我们逐步添加了额外的组件,这使我们能够衡量每个组件获得的性能改进,

FRCNN:在源数据集上训练Faster-RCNN的Source - only基线实验。

FRCNN D5:由Faster R-CNN和域识别器组成的域自适应基线实验。

FRCNN D5 R5:从FRCNN D5作为基本配置开始,我们在对更快的rcnn进行conv4之后添加了一个RFRB块。这个实验让我们了解了RFRB块的贡献。

FRCNN P5 R5:我们从FRCNN D5 R5配置开始,用先验估计网络(PEN)和先验对敌损失(PAL)替代域鉴别器和域对敌损失。通过这个实验,我们证明了训练前对抗损失的重要性。

FRCNN P45 R45:最后,我们在conv4和conv5两种尺度上进行基于先验的特征对齐。从FRCNN P5 R5配置开始,我们在conv3之后添加了RFRB块,在conv4之后添加了PEN模块。该实验对应于图2所示的配置。该实验证明了整体方法的有效性,并确立了网络中多级特征对齐的重要性。

遵循现有方法设置的协议[5,49,45],我们使用平均平均精度(mAP)评分进行性能比较。

4.2、适配到雾霾条件

在本节中,我们在以下数据集上给出了与适应雾霾条件相对应的结果:(i)Cityscapes→Foggy-Cityscapes[47],(ii)Cityscapes→RTTS [27], (iii)WIDER[56]→UFDD-Haze[39]。在前两个实验中,我们将Cityscapes[7]作为源域。注意,Cityscapes数据集包含在晴朗天气条件下捕获的图像。

Cityscapes→Foggy-Cityscapes:在这个实验中,我们从城市景观适应雾都城市景观[47]。最近[47]中提出了雾天城市景观数据集,用于研究雾天天气条件下的检测算法。基于城市景观数据集,在城市景观的晴空图像上模拟雾,得到雾天城市景观。城市风景和雾都有相同数量的分类,包括,汽车,卡车,摩托车/自行车,火车,公共汽车,骑手和人。与[5]、[45]类似,我们利用2975张城市景观和雾霭城市景观的图像进行训练。注意,我们只使用来自源数据集(Cityscapes)的注释来训练检测管道。为了进行评估,我们考虑了Foggy-Cityscapes数据集提供的500幅图像的非重叠验证集。我们将提出的方法与两类方法进行比较:(i) Dehaze detection:这里我们使用去雾网络作为预处理步骤,使用在源(干净)图像上训练的Faster-RCNN进行检测。对于预处理,我们选择了两种最新的去雾算法:DCPDN[60]和网格去雾[35]。(i)基于da的方法:在这里,我们比较了最近的领域自适应检测方法:DA-Faster [5],SWDA [45], diversity - match [25], Mean Teacher with Object Relations (MTOR) [4], Selective Cross-Domain Alignment (SCDA)[63]和[24]。结果如表1所示。由表1可以看出,在模糊条件下,Fast R-CNN的单纯源训练效果一般较差。添加DCPDN和Gird-Dehaze作为预处理步骤,性能分别提高2%和4%。与领域自适应检测方法相比,预处理 检测的性能增益较低。这是因为即使在应用去雾之后,仍然会有一些畴移,如第1节所讨论的。因此,使用适应将是减少领域转移的更好方法。在这里,使用简单的域自适应[14](FRCNN D5)提高了仅限源的性能。RFRB5 (FRCNN D5 R5)的加入进一步提高了RFRB块的重要性。然而,传统的域自适应损失假设整个图像的恒定域移动,导致不正确的对准。使用前对抗性损失(FRCNN P5 R5)克服了这个问题。我们在总体地图得分上提高了3.6%,从而证明了之前对抗训练的有效性。请注意,FRCNN P5 R5基线实现了与最先进水平相当的性能。最后,通过在额外的尺度(FRCNN P45 R45)上进行前对抗适应,我们实现了进一步的改进,比现有的最佳方法[24]高出2.8%。图3给出了雾都景观图像对应的样本定性检测结果。结果与DA-Faster-RCNN[5]进行了比较。可以看到,该方法能够产生相对高质量的检测结果。我们将观察结果总结如下:(i)使用去雾处理作为预处理步骤,相对于基线Faster-RCNN的改进极小。领域自适应方法通常性能更好。(ii)所提出的方法在总体得分上优于其他方法,并且在大多数班级中都取得了最好的成绩。更多洗礼见补充材料。

Cityscapes → RTTS:在这个实验中,我们从城市景观适应RTTS数据集[27]。RTTS是一个更大的居住数据集[27]的子集,它包含4,807个未注释的和4,322个注释的真实世界的模糊图像,主要覆盖交通和驾驶场景。我们使用未注释的4,807张图像来训练域适应过程。对带注释的4,322张图像执行评估。RTTS共有五类,即摩托车/自行车、人、自行车、公共汽车和汽车。该数据集是最大的可用数据集的目标检测下的真实世界朦胧条件。表2将本文方法的结果与Faster-RCNN[43]、DA-Faster[5]、SWDA[45]以及dehaze 检测基线进行比较。对于RTTS数据集,使用DCPDN进行预处理可以将更快的rcnn性能提高约1%。令人惊讶的是,Grid-Dehaze并不能帮助更快的rcnn基线,反而导致更糟糕的性能。然而,所提出的方法比baseline Fast R_CNN(仅源训练)提高了3.1%,同时优于其他最近的方法。

WIDER-Face → UFDD-Haze:最近,Nada等人[39]发布了一个基准的人脸检测数据集,该数据集包含了在不同天气条件下(如霾和雨)捕捉到的真实世界图像。具体来说,这个数据集包含442张霾类图像。由于人脸检测与目标检测任务密切相关,因此我们将大人脸[56]数据集应用于UFDD-Haze数据集来评估我们的框架。WIDER-Face是一个大规模的人脸检测数据集,拥有大约32,000张图像和199K的人脸注释。该适应实验的结果如表3所示。从表中可以看出,与其他方法相比,该方法取得了更好的性能。

4.3、适配雨场景

在本节中,我们将介绍适应多雨条件的结果。由于缺少适合这种特殊设置的数据集,我们创建了一个名为rain- Cityscapes的新的雨天数据集,它来自Cityscapes。它的训练和验证图像的数量与城市雾霭一样多。首先,我们介绍了用于创建数据集的模拟过程,然后讨论了该方法与其他方法在这个新数据集上的评价和比较。

Rainy-Cityscapes:与雾城市景观类似,我们使用城市景观中的3475张图像的子集来创建合成的雨数据集。利用[2]合成了几种含有人工雨纹的掩模。雨纹是使用不同的高斯噪声级别和70到110之间的多个旋转角度创建的。接下来,对于Cityscapes数据集子集中的每一张图像,我们选择一个随机的雨遮罩,并将其与图像混合以生成合成的雨遮罩图像。补充材料中提供了更多的细节和示例图像。

Cityscapes→Rainy-Cityscapes:在这个实验中,我们从城市景观适应到雨城市景观。我们将提出的方法与最近的方法如DA-Faster[5]和SWDA[45]进行了比较。此外,我们还评估了两种derain 检测基线的性能,其中最新的方法如DDN[13]和SPANet[54]被用作对在源(干净)图像上训练的Fast R-CNN的预处理步骤。从表4中我们可以看到,这些方法对更快的rcnn基线进行了合理的改进。然而,由于前面几节(第1节、第4.2节)中讨论的原因,与适应方法相比,性能的提高要小得多。此外,从表4可以看出,所提出的方法显著优于其他方法。此外,我们还提供了由第4.1节所列实验组成的烧蚀研究结果。引入域适应损失显著提高了source only Faster-RCNN基线,导致表4中FRCNN D5基线提高约9%。在FRCNN D5 R5基线中,利用残差特征恢复块进一步提高了1%的性能。当领域对抗性训练被之前的PAL对抗性训练(即FRCNN P5 R5基线)取代时,我们观察到2.5%的改进,显示了所提出的训练方法的有效性。最后,通过在多个尺度上进行先前的对抗训练,所提出的方法FRCNN P45 R45观察到大约2%的改进,并且比次优的方法SWDA[45]多出1.6%。图8显示了使用所提方法与最近的[5]方法所得到的样本检测结果。该方法获得了较好的检测质量。

WIDER-Face → UFDD-Rain:在本实验中,我们采用了从宽面到雨面[39]的适应性。UFDD-Rain数据集包括628张在雨天收集的图像。与其他方法相比,本文方法的结果如表3所示。可以看到,本文提出的方法比单纯的源训练效果好7.3%,是目前几种方法中效果最好的。由于篇幅限制,我们在补充材料中提供了关于所提议的方法的额外细节,包括结果、分析和扩展到其他不利条件的讨论。

5、结论

我们解决了使物体检测器适应雾蒙蒙和多雨条件的问题。观察到这些天气条件会导致退化,而退化可被数学建模,并在特征空间中造成空间变化的扭曲,基于此,我们提出了一种新的前对抗性损失,旨在产生天气不变特征。此外,还引入了一组残差特征恢复块来学习残差特征,有效地辅助自适应过程。在模糊城市景观、RTTS和UFDD等基准数据集上对该框架进行了评估。通过大量的实验,我们证明我们的方法在所有数据集中取得了显著的进步比最近的方法。

0 人点赞