摘要:
基于深度学习的目标检测获得了很大的方法。这些方法基本上假定可以获得大规模的训练标签,训练和测试数据服从理想的分布。然而这两个假设在实际中通常不满足。深度域适配目标检测做为一种新的学习范式开始出现,来解决上述问题。这篇文章旨在对最先进的域适配目标检测方法进行综述。首先,我们简要介绍域适配的概念。第二,深度域适配检测器可以分为四类,并提供了每个类别中有代表性的方法的详细说明。最后给出了将来的研究趋势。
1、简介
基于深度学习最先进的目标检测方法假定训练数据和测试数据来自同一个理想的分布。这些模型依赖于大规模的训练样本。实际中,收集标注数据很昂贵,而且有时候也不可能。深度域适配作为一种新的学习范式来解决上述挑战。跟随一些成功使用域适配的计算机视觉任务,例如图像分类和语义分割,因此期望使用深度域适配能够提升目标检测的性能。最近许多在目标检测中的深度域适配方法开始出现。这篇文章是对这些最新的深度域适配目标检测方法进行综述,并给出研究趋势。
2、深度域适配目标检测
我们使用很狭义的深度域适配概念。深度域适配时基于深度学习结构用来进行深度深度适配,通过反向传播能对深度结构产生直接的影响。深度域适配目标检测旨在学习一个鲁棒的目标检测,使用源域中丰富的标签数据,但是在目标域中标签未知或者标签较少,学习过程依赖于深度域适配模型或者DDA中使用的准则。源域和目标域之间的分布不相似或者完全不同。训练的目标检测器期望在目标域中效果很好。这节中我们首先介绍若干个因子,用于后续的深度域适配目标检测,然后回顾了深度域适配的相关方法。分类因子如下:
- 强调域漂移的机制:有四种类型的机制强调域漂移:基于不符、基于对抗、基于重建和混合方法。
- 一步和多步适配方法:当源域和目标域直接相关的时候,迁移知识能一步完成。两个域中有很小的交叠,一系列中间桥用来连接看起来无关的域,并且通过桥执行一步深度域适配,称为多步域适配。
- 目标域的标签数据:考虑目标域标签数据的时候,我们可以将域适配分为:全监督、半监督、弱监督、小样本和无监督。
- 基础检测器:域适配方法通常基于已经存在的好的检测器,例如Faster R-CNN、YOLO、SSD等
- 是否开源:这个因素指示了方法的代码是否可以在网上获得。如果是开源的将提供链接。
根据上述列出的分类因子,首先将深度域适配目标检测方法分类成如表1所示,然后在接下来的章节中回顾它们。
2.1、基于不符的方法
基于不符的深度域适配目标检测方法,基于微调深度网络来减少域漂移,基于有标签的检测模型或者无标记的目标数据。Khodabandeh等人提出了鲁棒性的学习方法来进行与适配目标检测。作者将问题表示为训练数据有很多噪声标签。基于噪声目标bbox集,通过仅仅在源域上训练的模型,最终的检测模型是训练好的。
为了解决合成图像到真实图像的域漂移,Cai等人提出了先进的平均教师范式来应用到跨域目标检测中,并且提出了目标相关的平均老师。这些方法改造了Faster R-CNN下的平均教师,通过将目标相关集成到连续损失的度量中。
Cao等人给出了一个自动标注框架来迭代的标注视觉和热图中的行人实例。标注框架由迭代标注,临时跟踪和标签融合组成。为了学习鲁棒性行人检测的多频谱特征,获得的标注送入两个主流的区域建议网络。
2.2、基于对抗学习的深度域适配目标检测方法
基于对抗学习的深度域适配目标检测方法利用域鉴别器,并且执行对抗训练使源域和目标域进行域融合。与鉴别器分类一个数据点来自源域还是目标域。域适配Faster R-CNN是第一个处理目标检测中的域适配问题的方法。作者使用H散度来衡量源域和目标域分布之间的差别。设计了三个适配组件,例如图像级适配、实例级适配和一致性检查。
由检测的局部性质启发,Zhu等人提出一个区域级适配框架。为了有效和鲁棒的解决看哪和如何合并的问题,设计了域挖掘和调整区域级对齐的组件。Wang等人提出了一个小样本适配Faster R-CNN的框架,FAFRCNN。由两个适配模块组成,例如图像级和实例级,加上特征匹配机制和稳定适配的强正则化。
Saito等人提出了一种无监督域适配目标检测方法,组合了弱全局对齐和强局部对齐,称为强弱域对齐模型。
He等人提出了多对抗Faster R-CNN模型,用来解决目标的无限制问题。方法由两个模块组成,例如等级域特征对齐和连接建议域特征对齐。
Shen等人提出了一个基于堆叠补充特征的梯度分离方法,用来进行无监督域适配目标检测。这个方法多补充损失来进行更好的优化,并且提出梯度分离训练来学习更多的区别表示。
Zhang提出了合成到真实的域适配方法用来进行目标实例分割。有三种不同的特征适配模块,基于特征适配的全局级、局部级实例特征适配模块和微妙级掩膜特征适配模块。
Zhuang提出了图像级全对齐网络来处理无监督域适配目标检测。有两种对齐模块:图像级对齐对齐多尺度特征,通过训练层级嵌套的对抗域,全对齐开发一个深度语义对齐信息,并且精心实例级表示来建立类别的域之间的强关联关系。
2.3、基于重建的深度域适配目标检测
基于重建的深度域适配目标检测器假定源域和目标域样本的重建有助于提升域适配目标检测的性能。Arruda使用无监督的图像到图像解译的方法提出了跨域车辆检测方法。CycleGAN用来探究人工数据集的产生(假数据集),通过将图像从白天域翻译到晚上域。最终检测模型在假数据集上进行,标签从源域中得来。
Lin介绍了一个多模型结构连续的图像到图像翻译模型来实现车辆检测的域适配。图像翻译模型产生不同和结构保持的翻译图像,通过复杂的域。
Guo给出了一个在红外热图中进行行人检测的方法,标签是有限的。为了解决红外热图和彩色图像之间的域漂移,作者提出学习成对的图像变换来将两个形式的图像进行转换,和一个行人检测器一起。
Devaguptapu提出利用图像到图像的翻译框架来产生和给定红外图像相同的伪RGB图像,然后对红外热图像采用一个多模型目标检测框架。
Liu提出了一个无监督图像翻译框架,将图像从红外翻译到可视图像,基于GAN。红外到可视算法指的是IR2VI。目标检测在标注的可视图像上进行,应用到翻译的伪视觉图像上。
2.4、混合深度域适配目标检测
混合的深度域适配目标检测器使用提前定义的机制,同时获得更好的性能。Inoue等人提出了新的任务,跨域弱监督目标检测,在这个方法中图像级的标注可以在目标域中获得。提出了两步进步的域适配技巧。这种方法用两种手工和自动产生样本的方法来微调检测器。基于图像到图像翻译的CycleGAN用来人工地产生样本,同时通过伪标签来自动产生样本。Shan 给出了基于像素和特征级的域适配检测器,方法由两个模块组成,一个是基于CycleGAN的像素级域适配器和基于Faster R-CNN的特征级适配器。两个模块能集成到一起并且以端对端的方式训练。
为了同时缓解像素级的不完美迁移和特征级适配的源域偏向问题,Kim 等人介绍了一个目标检测的域适配表示范式。由源域多样化阶段和多域不变表示学习阶段构成。
Kim等人介绍了一个域适配的一阶段目标检测方法,由弱自训练方法和对抗背景分数正则化组成。若自监督训练能减少不正确伪标签的不利影响,同时对抗背景分数正则化减少对目标背景提取区别特征时的域漂移。
Rodriguez等人提出了一个两步域适配检测器,基于类型迁移的底层适配和鲁棒伪标签的高层适配。
Hsu等人提出了进步的域适配目标检测器。通过迁移源域图像来模仿目标域图像,构造了一个中间域。为了解决域漂移问题,作者采用对抗学习来合并特征层上的分布,并且采用一个有权重的损失来处理中间域的不平衡质量。
3、结论和将来研究指导
这篇文章调查了22个深度域适配目标检测方法。所复习的方法根据我们给出的5个类别因子来进行总结和分类。在不同域适配目标检测任务上的性能也进行了比较。可以发现混合方法效果最好,基于对抗的方法其次,其他的方法效果最不好。对抗训练融合更多适配机制效果更好。尽管各种各样的深度域适配目标检测方法在最近几年被提出,在有标签的数据集上依然和标准性能有很大的差距。因此有更多工作需要做。
一个很有前途的方法是组合不同类别适配方法,例如[23],将类型迁移和鲁棒性伪标签结合起来,来达到更好的性能。一个可能的组合方式是对抗训练一个检测器来产生目标样本的伪标签。
另一个有希望的方法是探索检测的本身性能。例如,产生和目标域实例级样本相似的实例级样本,并且合成训练样本来进行检测,使用产生的实例级patch和目标域的背景图像。
第三,大多数综述工作处理统一的深度域适配目标检测器,因为较大的与差距,深度域适配目标检测器更加具有挑战,因此执行有大量标注的可视域到很难获得标签的热红外域的研究很有意义。在这个方向上具有高影响力的作品是值得期待的。
最后,使用最先进的域适配分类模型,并且嵌入到检测框架,研究从令的域适配也是一个很有前途的方向。