本文分享主动学习用于目标检测的论文『Consistency-based Active Learning for Object Detection』
作者:Weiping Yu, Sijie Zhu, Taojiannan Yang, Chen Chen, Mengyuan Liu
单位:北卡夏洛特分校,中山大学
- 论文链接:https://arxiv.org/pdf/2103.10374.pdf
- 项目链接:https://github.com/we1pingyu/CALD
01
摘要
主动学习(active learning)旨在找出能使模型表现受益最大的未标注样本,在传统主动学习方法中大多在分类任务上追求高评价指标。然而作为计算机视觉中最重要和最具有挑战性的任务目标检测却很少收到主动学习研究者的关注。
我们发现了 classification-based 主动学习方法迁移到目标检测任务上效果变差的原因在于两个任务的不一致性,同时我们提出了解决这些问题的准则。最后我们提出了 CALD,一个 detection-specific 的主动学习方法,在 voc 和 coco 上均超过 SOTA。
02
简介
Classification-based 主动学习方法使用的都是 global representation level 的信息,通过一定的规则得到一个uncertainty来表示该样本所包含的信息。但是目标检测与图片分类有三个不一致性:
- 目标检测需要同时表示出box regression和classification的信息;
- 目标检测更注重local region(patch)的信息;
- 一张目标检测数据集中的图片包含多个物体,在我们按照local region选择图片时需要考虑是否会夹带其他类别以免导致类别不平衡。
按照上述不一致性我们得到三条准则:
- 将box和classification统一到一个measure下,可以更全面地表示样本所包含的信息。
- 注重于每张图片包含信息最多的local region而不是统计整张图片所包含的信息。
- 通过额外的步骤避免多数样本被过量选择,减轻类别不平衡。
我们利用数据增强获取了数据一致性指标(consistency-based metric),即模型对一张图片在数据增强前后预测结果的一致性,以表达这张图片所包含的信息。同时为了减轻类别不平衡,我们用了第二阶段去比较未标注数据和已标注数据的之间的类别差异。
03
方法
3.1First stage (individual information):
第一阶段提取图片内部的信息。首先我们经过数据增强和初始模型得到原始图片和增广后的图片的预测结果,按照最大IoU的规则为原始图片的每个结果进行配对。然后根据classification(js散度)和box regression(IoU)计算每个配对的一致性:
其中
Weight factor 主要是为了增加置信度高的预测的权重。
理想情况下一致性越低的配对说明模型在其上面的预测越不稳定,但是我们发现如果某组配对一致性很小,那么在其周围很可能出现另外一组比较准确的预测:
这种情况出现的一个可能原因是由模型的随机性导致的,并不能确定地认为其中的配对包含对模型很有价值的信息。
所以我们认为包含信息最多的配对存在于上下界之间的某个点中。因为其中用到的函数的复杂性,直接通过数学推导去取得这个点是不现实的。所以我们通过实验搜索到这个点,从上下界的中点出发,一般经过5-6次实验即可发现这个基准点,并且这个搜索方式和基准点对多个数据集和检测模型均是一致且有效的。
另外我们使用包含信息最多的配对来表示整张图片的信息量,并且通过多个数据增广来增加稳定性,所以每个图片最终的metric是:
3.2Second stage(mutual information):
我们在第一阶段选择了包含最有价值local region的图片,但是通过这种方法选择的图片有可能夹带了其他很多多数样本的object,这样会导致样本不平衡。为了减轻这种情况,我们在第一阶段会选出多于最终budget数量的图片。然后使用第一阶段得到的结果表示未标注样本的类别分布:
用ground truth表示已标注图片的类比分布:
通过js散度求得其距离,距离越大表示该未标注图片越可能包含了已标注图片中缺少的类别。
04
实验结果
本文在 voc07,voc12 和 coco 三个流行数据集以及 Faster R-CNN 和RetinaNet 两个检测器上进行了实验,均得到最优结果。
另外我们发现对于较难的类别表现提升会比较大: