Frustratingly Simple Few-Shot Object Detection

2022-09-02 11:44:11 浏览数 (1)

摘要

从几个例子中检测稀有物体是一个新兴的问题。 先前的研究表明元学习是一种很有前途的方法。 但是,精细的调音技术没有引起足够的重视。 我们发现,仅微调现有检测器的最后一层稀有类是至关重要的少数射击目标检测任务。 这种简单的方法比元学习方法的性能要高出约2 ~ 20点,有时甚至是之前方法的准确度的两倍。 然而,少数样本中的高方差往往会导致现有基准测试的不可靠性。 基于PASCAL VOC、COCO和LVIS三个数据集,我们通过对多组训练实例进行采样来修改评估协议,以获得稳定的比较,并建立新的基准。 同样,我们的微调方法在修订后的基准上建立了一个新的最先进状态。

1、介绍

机器感知系统在过去几年里取得了显著的进步。 然而,与人类视觉系统相比,我们训练模型的能力,在没有大量标记数据的情况下,仍远不能令人满意。 即使是蹒跚学步的孩子也能在很少的指导下很容易地认识到一个新概念。

从几个例子中进行归纳的能力(即所谓的少样本学习)已经成为机器学习领域的一个关键兴趣领域。 许多人探索了通过元学习将知识从数据丰富的基类转移到数据缺乏的新类的技术。 他们通过在训练期间从基础课程中取样,使用模拟的少样本任务来学习从新类中的几个例子中学习。

然而,大部分工作都集中在基本的图像分类任务上。 相比之下,少样本目标检测得到的关注要少得多。 与图像分类不同,目标检测要求模型不仅要识别目标类型,还要在数百万个潜在区域中定位目标。 这个额外的子任务大大提高了整体的复杂性。 几个(Kang等人,2019; Yan等人,2019; Wang等人,2019b)试图解决未充分探索的少样本目标检测任务,其中只有少数标记的边界框可用于新类。 这些方法将元学习者附加到现有的目标检测网络,遵循元学习方法进行分类。 但是,目前的评估方案存在统计不可靠的问题,文献中基线方法,特别是简单的微调,对少目标检测的准确性并不一致。

在这项工作中,我们提出了改进的方法来评估少样本目标检测。 我们仔细检查了基于微调的方法,这些方法在之前的工作中被认为表现不佳(Kang等人,2019; Yan等人,2019; Wang等人,2019b)。 在基于微调的模型设计和训练中,重点讨论了目标检测器的训练计划和实例级特征规范化问题。 我们采用两阶段训练方案进行微调,如图1所示。 我们第一次火车整个目标检测器,如快R-CNN (Ren et al ., 2015),在dataabundant基类,然后只调整的最后一层检测器小平衡训练集组成的基础和小说类,同时冻结模型的其他参数。 在微调阶段,我们将实例级特征归一化引入了由Gidaris & Komodakis(2018)启发的框分类器; Qi等人(2018); Chen等人(2019)。

我们发现,在现有的PASCAL VOC (Everingham et al., 2007)和COCO (Lin et al., 2014)基准上,这种两阶段微调方法(TFA)的性能比之前所有最先进的基于元学习的方法高出了约2 - 20点。 当对单个新例子进行训练时(一次性学习),我们的方法可以实现两倍于先前先进的方法的准确性。 现有评价方案存在若干问题,无法进行一致的模型比较。 准确度测量有很高的方差,使得发表的比较不可靠。 此外,之前的评估仅报告了对新类的检测准确率,而没有评估对基类的知识保留。

为了解决这些问题,我们在三个数据集上建立了新的基准:PASCAL VOC、COCO和LVIS (Gupta等人,2019)。 我们对不同分组的几杆训练实例进行多次实验,以获得稳定的精度估计,并对不同评价指标的方差进行定量分析。 新的评估报告了基类和新类的平均精度(AP)以及所有类的平均AP,在少镜头分类文献中称为广义少样本学习设置(Hariharan & Girshick, 2017; Wang等人,2019a)。 我们的微调方法在基准上建立了新的最先进状态。 在具有挑战性的LVIS数据集上,我们的两阶段训练方案将罕见类(<10张图像)的平均检测精度提高了约4点,对于常见类(10-100张图像)的平均检测精度提高了约2点,而对于常见类(>100张图像)的精度损失可以忽略不计。

2、相关工作

我们的工作涉及到关于少镜头图像分类的丰富文献,它使用了各种基于元学习或基于度量学习的方法。 我们也把我们的工作和现有的基于元学习的目标检测方法联系起来。 据我们所知,我们是第一个对基于微调的方法进行系统分析的少镜头目标检测。

Meta-learning. 元学习的目标是获得任务级的元知识,帮助模型快速适应新的任务和环境,并且很少有标记的例子。 一些(Finn等人,2017; Rusu等人,2018; Nichol等人,2018)学习微调,旨在获得一个良好的参数初始化,可以适应新的任务与少量的学术梯度更新。 元学习的另一个热门研究方向是在适应新任务时使用参数生成。 Gidaris & Komodakis(2018)提出了一种基于注意力的权重生成器,用于生成新类别的分类器权重。 Wang等人(2019a)通过生成特征层的参数来构建任务感知的特征嵌入。 这些方法只用于少量镜头的图像分类,而不是更具有挑战性的任务,如目标检测。 然而,由于缺少对不同方法的一致比较,一些人(Chen等人,2019)对结果的可靠性提出了担忧。 一些简单的基于微调的方法,在社区中很少引起注意,结果比许多之前使用元学习对少量镜头图像分类的工作更受欢迎(Chen et al., 2019; Dhillon等人,2019年)。 对于新出现的少样本目标检测任务,由于网络复杂度的增加、实现细节的模糊和评估协议的差异,在评估基准和不同方法的比较上没有一致的意见。

Metric-learning.另一项工作(科赫,2015; Snell等人,2017; Vinyals等人,2016)专注于学习比较或度量学习。 从直观上看,如果该模型能够构造距离度量来估计两个输入图像之间的相似性,那么它可以推广到具有较少标记实例的新类别。 最近,几个(Chen等人,2019; Gidaris & Komodakis, 2018; Qi etal ., 2018)采用基于余弦相似度的分类器来减少少样本分类任务上的类间方差,相比于许多基于元学习的方法具有良好的性能。 该方法还采用余弦相似分类器对区域提案的类别进行分类。 但是,我们关注的是实例级的距离度量,而不是图像级。

Few-shot object detection. 在使用元学习的几样本目标检测方面,有一些早期的尝试。 康et al。(2019)和燕et al .(2019)功能权重方案适用于单级目标检测器(YOLOv2)和两级目标检测器(R-CNN更快),元学习者的帮助下,支持图像(例如,少量的标签图片小说/基类)以及边界框注释作为输入。 Wang等人(2019b)提出了一个权重预测元模型,从少数例子中预测类别特定组件的参数,同时从基类例子中学习类别不可知组件。 在所有这些工作中,基于微调的方法被认为是比基于元学习的方法性能更差的基线。 它们考虑联合微调(基类和新类一起训练)和微调整个模型(检测器首先只在基类上训练,然后在基类和新类的平衡集合上进行微调)。 与此相反,我们发现只微调平衡子集上的目标检测器的最后一层,并保持模型的其余部分不变,可以显著提高检测精度,优于所有之前的基于元学习的方法。 这表明,从基类学到的特征表示可能能够转移到新的类,对框预测器进行简单调整可以提供强大的性能增益(Dhillon等人,2019)。

3、少样本目标检测算法

在这一节中,我们从几杆物体检测设置的初步开始。然后,我们将在第3.1节中讨论我们的两阶段微调方法。第3.2节总结了先前的元学习方法。

我们遵循Kang等人(2019)中引入的少量目标检测设置。有一组基类Cb有许多实例,一组新类Cn每个类别只有K个实例(通常少于10个)。对于目标检测数据集mathcal{D}={(x, y), x in mathcal{X}, y in mathcal{Y}} ,其中x为输入图像,y=left{left(c_{i}, 1_{i}right), i=1, ldots, Nright} 表示类别c in C_{b} cup C_{n} 和图像x中的N个目标实例的bounding box坐标text { l } 。合成few-shot数据集使用PASCAL VOC和可可,训练的小说是平衡和每个类都有相同数量的注释对象(即K-shot)。最近的LVIS数集有一个自然的长尾分布,它没有手动的K-shot分裂。LVIS中的类分为频繁类(出现在100多张图像中)、常见类(10-100张图像)和罕见类(少于10张图像)。在我们的工作中,我们考虑了合成和自然数据集,为了简单起见,我们遵循k-shot的命名约定。

在基类和新类的测试集上对少样本目标检测器进行了评估。目的是优化新类和基类的平均精度(AP)检测精度。这种设置不同于N-way-K-shot设置(Finn et al., 2017;Vinyals等人,2016;Snell等人,2017)通常用于少样本分类。

3.1、两阶段微调方法

在本节我们描述了我们的两阶段微调方法(TFA)为少样本的目标检测。我们采用目前广泛使用的两阶段目标检测器Faster R-CNN (Ren et al., 2015)作为我们的基本检测模型。如图1所示,该功能学习组件,称为F,更快的R-CNN模型包括骨干(例如,ResNet(他et al ., 2016), VGG16 (Simonyan & Zisserman, 2014)),该地区建议网络(RPN),以及建立的全连通(FC)子proposal-level特征提取器。还有由用于分类对象类别的盒分类器C和用于预测边界盒坐标的盒回归器R组成的盒预测器。直观地说,骨干特征和RPN特征是类无关的。因此,从基类学到的特性很可能在没有进一步参数更新的情况下转移到新类。该方法的关键是将特征表示学习和框预测器学习分为两个阶段。

Base model training.

第一个阶段,我们只在基类Cb上训练特性提取器和盒子预测器,同时在Ren et al中使用相同的丢失函数。(2015)。共同损失是,mathcal{L}=mathcal{L}_{mathrm{rpn}} mathcal{L}_{mathrm{cls}} mathcal{L}_{mathrm{loc}} 其中,将mathcal{L}_{text {rpn }} 应用于RPN的输出,以区分前景和背景并细化锚点,mathcal{L}_{mathrm{cls}} 是框分类器C的交叉熵损失,而mathcal{L}_{mathrm{loc}} 是框回归器R的平滑L1损失。

Few-shot fine-tuning.

在第二阶段,我们创建一个小的平衡训练集,每个班K次击球,包括基础和新类。我们为新的类别分配随机初始化的权值给盒子预测网络,只微调盒子分类和回归网络,即检测模型的最后一层,同时保持整个特征提取器F固定。我们使用方程1中相同的损失函数和更小的学习率。在我们所有的实验中,学习速率从第一阶段开始降低了20。

Cosine similarity for box classifier.

我们考虑在第二微调阶段使用基于余弦相似度的分类器,灵感来自Gidaris & Komodakis (2018); Qi et al.(2018); Chen et al. (2019)。框分类器C的权值矩阵W in mathbb{R}^{d times c} 可记为left[w_{1}, w_{2}, ldots, w_{c}right] ,其中w_{c} in mathbb{R}^{d} 是每个类的权重向量。C的输出是对输入特征F(x)和不同类别的权重向量的相似度评分S进行缩放。S中的元素是:

s_{i, j}=frac{alpha mathcal{F}(x)_{i}^{top} w_{j}}{left|mathcal{F}(x)_{i}right|left|w_{j}right|}

其中s_{i, j} 为输入x的第i个目标建议与类j的权向量的相似度得分。α为比例因子。我们在实验中使用固定的α 20。我们的经验发现,与基于fc的分类器相比,实例级特征归一化用于基于余弦相似度的分类器,有助于减少类内方差,提高新类的检测精度,并减少基类的检测精度。特别是在训练实例较少的情况下。

3.2. 基于元学习的方法

在本节中,我们描述了现有的基于元学习的少样本目标检测网络,包括FSRW (Kang et al.,2019)、Meta R-CNN (Yan et al.,2019)和MetaDet (Wang et al.,2019b),以与我们的方法进行比较。图2说明了这些网络的结构。在元学习方法中,除了基本目标检测单级或两阶段模型,介绍了meta-learner获得类级别的元知识和帮助通过特征权重模型概括小说类,如FSRW和元R-CNN,或职业专用体重一代,比如MetaDet。元学习者的输入是一小组支持图像,带有目标对象的边界框注释。

基本对象检测器和元学习者通常使用情景训练(Vinyals et al., 2016)进行联合训练。每集由N个对象的支持集和一组查询图像组成。在FSRW和Meta R-CNN中,支持图像和标注目标的二进制掩码作为元学习者的输入,生成类重加权向量来调整查询图像的特征表示。如图2所示,训练过程也分成meta-training阶段,模型的训练数据的基类,和元微调阶段,支持设置的一些例子包括小说类和基类的实例的一个子集。

元学习方法和我们的方法都有一个两阶段的训练计划。然而,我们发现,在元学习方法中使用的情景学习,随着支持集中类别数量的增加,记忆效率会非常低。我们的微调方法只对网络的最后一层进行微调,使用普通的批处理训练方案,这是更有效的存储。

0 人点赞