摘要
领域自适应目标检测中流行的方法是采用两阶段架构(Faster R-CNN),其中涉及大量超参数和手工设计,如锚定、区域池化、非最大抑制等。这样的架构使得在采用现有的某些领域自适应方法和不同的特征对齐方式时变得非常复杂。在本工作中,我们采用一阶检测器并设计DA-DETR,这是一种简单而有效的域自适应目标检测网络,通过一个单一的鉴别器实现域间对齐。DA-DETR引入了一个混合注意模块,它明确地确定了硬对齐特性,从而实现了简单而有效的跨域对齐。它通过消除复杂的例程,极大地简化了传统的领域适应管道,这些例程涉及多个具有不同类型特性的对抗性学习框架。尽管它简单,大量的实验表明,与高度优化的最先进的方法相比,DADETR显示出更高的精度。
1、简介
目标检测一直是计算机视觉中的一个长期挑战,其目的是为图像中的每个目标分配一个边界框和一个类标签。基于深度学习的方法取得了巨大的成功,但代价是收集大量注释的训练数据,这些数据的代价是昂贵和耗时。规避这种约束的一种方法是在网络训练中利用来自不同但相关的“源域”的现成标记数据。然而,由于两个领域之间的分布差距,这样的训练模型在应用到“目标领域”时,往往会出现明显的性能下降。
无监督域自适应(UDA)被用来解决域间隙问题。大多数现有的工作基于一个复杂的两阶段架构(即Faster R-CNN),它带有许多启发式和手工设计,如锚点生成、兴趣区域汇聚、非最大抑制等。为了迎合这样的架构,它们涉及多个目标和若干对抗性的鉴别器来对齐不同类型的特征,例如图像级特征(即骨干的输出)、实例级特征(即区域池化的输出)、层次特征(即:多个网络层的输出)如图1所示。虽然已经取得了相当可观的进展,但它们使网络设计变得复杂,不能充分获取不同网络组件之间的协同关系,经常导致不协调的网络训练和亚优检测模型。
我们采用了一种单级检测器并设计了DA-DETR,这是一种简单而有效的域自适应检测Transformer,通过一个单一的鉴别器实现域间对齐。DA-DETR引入了一个混合注意模块(HAM),它明确地定位硬对齐特性,以便简单而有效地跨域对齐,如图1所示。HAM由两个顺序模块组成,一个是坐标注意模块(CAM),它将位置信息嵌入通道注意中以寻找硬对齐的目标特征,另一个是水平注意模块(LAM),它在变形级别上聚合多个尺度上的注意特征。与传统的独立空间注意和通道注意不同,CAM将主干特征分为两部分,并与Transformer编码器的潜在特征融合,从而获取丰富的上下文和位置信息。生成的功能然后被连接和打乱,以促进信息在通道之间的流动。通过这种设计,HAM可以明确地指出硬对齐特性,并使用一个鉴别器实现直接的域间对齐。大量的实验表明,DA-DETR极大地简化了领域自适应检测管道,并产生优于多个基准的检测。
这一工作的贡献可以概括为三个方面。首先,我们提出DA-DETR,一种简单而有效的域自适应检测网络,通过一个单一的鉴别器实现优越的特征对齐。其次,我们设计了一个混合注意模块,自动定位硬对齐的目标特征并有效地跨域对齐。第三,在多个领域的适应性基准上的大量实验表明,DA-DETR始终优于最先进的技术。