1、摘要
近年来,少样本目标检测被广泛用于处理数据有限的情况。虽然大多数以前的工作仅仅集中在少样本类别的性能上,我们声称检测所有类别是至关重要的,因为测试样本可能包含现实应用中的任何实例,这需要少样本检测器在不忘记的情况下学习新概念。通过对基于迁移学习的方法的分析,利用一些被忽略但有益的性质,设计了一种简单而有效的少样本检测器——Retentive R-CNN。它由偏置平衡的局部概率神经网络和预处理的局部概率神经网络组成,并通过重检测器在不忘记先前知识的情况下找到少量的类目标。在少拍检测基准上的大量实验表明,在所有设置中,Retentive R-CNN在整体性能上明显优于最先进的方法,因为它可以在少样本类上获得有竞争力的结果,并且根本不会降低基类的性能。我们的方法已经证明了长期期望的永不遗忘学习者在目标检测中是可用的。
2、简介
通过应用从大量数据中训练出来的深度卷积神经网络,计算机视觉领域已经取得了重大进展。然而,由于注释(尤其是目标检测)的大量人工劳动,有时无法获得足够的训练数据,并且源数据分布可能本质上是长尾的,使得某些目标类别仅包含有限的示例。这些情况增加了在低数据体制下有效学习的需要。受人类从少数例子中快速学习新概念的能力的启发,通过对图像分类的广泛研究,提出了模拟这种泛化能力的少样本学习。
最近的一些工作试图将少样本学习技术应用于实例级任务,例如目标检测,其中包括额外的定位任务和遇到的更复杂的视觉环境和特征,使得少样本目标检测方式更具挑战性。然而,大多数人只关注少样本类别的性能,而忽略了基类的灾难性遗忘,这是不现实的。与图像分类不同,同时检测两个类别的联合域的能力对于目标检测甚至是至关重要的,因为测试时的样本可能包含两个类别的实例,这要求检测器在计算上高效,并且在没有灾难性遗忘的情况下学习新概念。这两类目标的检测问题被称为广义少样本检测。
通过利用外部样本在图像中进行视觉搜索,一种流行的少样本目标检测流属于元学习的范畴。由于它们的计算复杂度与类别的数量成正比,当处理数据集的两组类别时,这些方法变得相当慢甚至不可用。一个有希望的替代方法是基于迁移学习的方法,它可以被增量训练以在一次运行中检测所有的类。王等人在保持两个类别的整体性能方面有着相似的兴趣,并通过他们的两阶段微调方法()实现了有竞争力的结果,其中在冻结主干和RPN的同时,仅微调了RCNN的最后一层分类和框回归分支。然而,与预训练模型相比,仍然存在不可忽略的基类性能差距。
为了缩小这一差距,我们首先分析了TFA的预处理后的RCNN,并发现了有利的但被忽略的特性:1)预处理后的基类检测器不能预测新类实例上的许多误报,尽管它们具有显著性2) RPN偏向于它看到的类,而不是理想的类不可知的,因此冻结它而不暴露给新类可能是次优的。利用这些性质,我们提出了一种简单而有效的基于迁移学习的方法——保持学习神经网络,以满足遗传神经网络在不遗忘的情况下学习和有效检测所有类别的要求。Retentive R-CNN的名字来源于它惊人的完全保留基类性能的能力。保留的R-CNN通过偏置平衡的RPN和重检测器结合了基本类和新类检测器,几乎没有引入额外的成本。偏差平衡的RPN可以更好地适应新的类目标,并在基类上保持强大的功能,从而为训练和推理提供更好的建议。重新检测器利用一致性损失来调整微调期间的自适应,并利用基类检测器的属性来增量检测而不遗忘。值得一提的是,我们的方法一点也没有降低基类的性能,同时也在新类上实现了有竞争力的性能,如图1所示。我们的贡献可以归纳如下:
- 我们发现在少量检测文献中忽略了基类检测器的属性,这可以用来以很少的开销提高基于迁移学习的方法的基类和新类性能。
- 我们提出了一种不遗忘的少触发检测器,即保持性类神经网络,具有偏置平衡类神经网络和重复检测器,以利用基本类知识和集成基础以及新的类检测器来帮助新的类适应。
- 我们的方法通过领先的基本类别指标和具有竞争力的新颖类别指标,在所有设置中实现了少样本检测基准的最先进的整体性能。
3、相关工作
3.1、少样本学习
以往的少样本学习文献主要集中在图像分类的任务上。两种流行的方法,度量学习和元学习,已经被广泛采用,以避免对小数据的过度拟合。最近的工作也证明了预处理主干作为强特征提取器的有效性,并优于许多以前的方法。然而,在微调期间,基类上的灾难性遗忘可能会发生。Gidaris等人强调,一个好的少样本学习系统应该能够快速适应新的任务,同时在不忘记的情况下保持对先前知识的表现,即广义的少拍学习,这也是其他几部作品的研究兴趣。值得一提的是,这种能力对于目标检测更为关键,因为图像可能同时具有两组类别。
3.2、少样本目标检测
到目前为止,对少样本目标检测的探索可以分为两个流:基于元学习和基于迁移学习。大多数元学习流预测以一组支持示例为条件的检测,这可以被视为基于样本的视觉搜索。例如,Meta R-CNN预测由每个类别的关注向量重新加权的感兴趣区域特征,其计算复杂度随着类别数量的增加而线性增长,使得其难以应用于大规模数据集。相反,基于迁移学习的方法可以很容易地采用全类检测。迄今为止,迁移学习方法已经探索了各个方面:陈等人在微调期间应用正则化,杨等人利用非局部结构来建模全局上下文,吴等人增加训练样本以减轻由于有限数据造成的规模偏差。
4、方法
在这一节中,我们从少样本物体检测的问题公式开始。接下来,我们研究了基于TFA的代表性迁移学习,以揭示预训练基检测器的一些被忽略的性质。然后我们描述我们提出的模型,它利用这些属性,接着是训练和推理细节。
4.1、问题陈述
根据以前的文献,我们将数据集的类别分为基本类Cb和新类Cn,Db和Dn分别表示相应的子数据集。Db包含大量用于训练的注释,而Dn中只有少量数据可用。我们的目标是从少量新的类样本中学习一个针对Cb和Cn的检测模型f(),而不忘记从大量的基类样本中学习的能力。
这一目标可以通过元训练模型在Db上执行基于样本的视觉搜索,然后直接部署它而无需微调来轻松实现,如一次性检测文献[14,30]中所述。然而,这些方法在Db上的性能不如普通检测方法,并且需要很高的时间和空间复杂度。相反,基于迁移学习的方法可以有效地处理全向检测,并在Cn上获得有竞争力的结果,如以前的工作[42,45]所示。因此,我们建议在迁移学习范式中解决G-FSD问题:首先通过在Db上训练获得基础模型fb,然后通过在Dn上微调fb(或Db子集和D n的组合)获得新模型fn。然而,如果微调级在Dn上微调,由于遗忘效应,或者由于Db上的采样限制,如果在两个等级上微调,为了平衡等级频率,微调级往往会降低基本等级的性能。关于这个问题,可能会提出一个问题:退化是不可避免的吗?
4.2、基于迁移学习的少样本目标检测分析
为了不失一般性地回答这个问题,我们分析了TFA作为一个典型的迁移学习模型在少样本检测任务上的性质。TFA首先在Db上作为普通的R-CNN进行预处理,然后在Dn上调整分类和框回归头中的最后一层。微调后的新类别头的权重与基本类别权重相连接,因为在由Dn和Db子集组成的组合数据集上进行最终微调的初始化,其中每个类别的样本数量被强制为相同。一个缓慢而稳定的学习计划也适用于最后的微调阶段。以MS-COCO上的10样本设置为例,Cb上的AP比纯微调基线(31.8到35.0)保留得更好,尽管基类检测器的AP可以达到39.2。
Why cosine classifier works?
余弦分类器通常适用于少样本分类,作为余弦相似性桥接转移学习和度量学习方法,并且通常在基本和新颖的类别权衡上表现良好。该结论对TFA仍然有效,因为余弦分类器的基本类性能通常更高。我们从预先在MS-COCO的Db上训练的R-CNN收集感兴趣区域特征,并计算C和C的平均像素L2范数。结果显示在C和C的D像素L2范数上训练。结果显示在图2(a)中。在图2(a)中,基像素L2范数和C范数之间的巨大差异。可以很容易地观察到基类和看不见的新类之间规范的巨大变化。这可以解释余弦分类器对特征规范不可知的有效性。此外,与可见类关系更密切的不可见类的规范相对更高(图2(a)中标注的蓝色名称)。
Does base detector find novel class salient objects?
在很大程度上,没有。我们假设这是由于在Cb上训练期间停用的特征,如低L2范数所示,这不会产生点积分类器的高置信度得分。我们在图2中可视化了FPN P3上的检测结果及其特征规范。前两幅图像中人周围的局部特征明显被去激活,尽管物体对人类来说具有很大的显著性。公共汽车的特征在图2(b)的第三幅图像中有所激活(可能是因为与C b的卡车关系密切),但检测器仍然能够将其识别为背景。在没有摘樱桃的补充材料中提供了更多表明这种性质的结果。为了定量地回答这个问题,f . b .的RPN建议、最终输出和看不见的Cn类(uAR)和看得见的类(AR)的基本事实之间的平均召回率在表1中计算。uAR的急剧下降很好地证明了f b拒绝新类目标的能力。因此,我们可以利用这个属性来保留基类的性能,因为当遇到新的类实例时,fb不会在Cb上引入许多误报。
Is RPN class-agnostic?
虽然大多数迁移学习和元学习工作将RPN视为类不可知的,并在微调期间将其冻结,但RPN不是理想的类不可知的,并且偏向于其可见的类别。在Db上训练时,由于缺少注释,新类实例的锚被归类到非对象中,使得RPN偏向训练样本。我们将Cb ∪ Cn上所有类别的微调RPN在10次拍摄设置下的增强现实与表2中的预处理RPN进行了比较,其中明显的改进验证了我们的答案。
4.3、Retentive R-CNN
我们提出的G-FSD模型,Retentive R-CNN,由偏置平衡RPN和重检测器组成,利用了基本类检测器fb的上述特性。模型架构如图3所示。
Re-detector.
重检测器由两个检测器头组成,并行预测来自对象提议的Cb和Cbcup Cn的检测,其中一个流保持与fb中相同的权重,以预测Cb的目标(表示为d e t^{b} ),另一个流保持微调的权重,以检测Cn和Cb的目标(表示为operatorname{det}^{n} )。如第4.3节所示,检测这两个类别可以很好地减轻由于数据训练不足而导致的误报。d e t^{b} 使用完全连接的层进行分类,d e t^{n} 使用余弦分类器来平衡特征在其标准中的变化。与TFA类似,我们只是微调了det n的最后几层分类和框回归头,它能够产生有竞争力的结果。
由于f^{b} 是从丰富的数据中训练出来的,我们希望operatorname{det}^{n} 能够继承f^{b} 的可靠知识。为此,我们提出了一个辅助的一致性损失来正则化operatorname{det}^{n} ,以便在基类条目上对类似于d e t^{b} 的目标建议进行评分,这采用了KL-散度的形式,如先前的知识提炼工作。对于Cb的建议,d e t^{n} 被强制预测高置信度,对于不属于Cb的建议,d e t^{n} 以类似的低概率模仿d e t^{b} 。给定由detb和detn预测的c类最终概率p_{c}^{b}
和p_{c}^{n} ,一致性损失形式化为:
mathcal{L}_{text {con }}=sum_{c in mathcal{C}_{b}} tilde{p_{c}^{n}} log left(frac{tilde{p_{c}^{n}}}{tilde{p_{c}^{b}}}right)
其中p_{i}^{n}=frac{p_{i}^{n}}{sum_{c in mathcal{C}_{b}} p_{c}^{n}} 和tilde{p_{i}^{b}} 是一样的。这与LSTD的传统知识有很大不同,在那里,KL散度是在Cb和Cn的最高概率之间计算的。请注意,p_{i}^{n} 是所有类别条目的softmax之后基本类别的归一化边际概率分布。在微调阶段,重新检测器的总损失为:
mathcal{L}_{text {det }}=mathcal{L}_{text {cls }}^{n} mathcal{L}_{text {box }}^{n} lambda mathcal{L}_{text {con }}
其中L_{cls}和L_{cls}采用与Faster R-CNN相同的形式,仅在operatorname{det}^{n} 上计算,λ表示一致性损失系数。
Bias-Balanced RPN.
R-CNN依靠RPN生成目标建议作为第二阶段分类和其他后续处理的训练样本。当网络在低数据场景下训练时,RPN建议的质量尤其重要。如第3.2节所示,预训练的RPN可能无法捕获新的类对象,进一步加剧了样本的稀缺性,而微调的RPN可以缓解这个问题,从而为第二阶段模块学习提供更好的样本。我们试图解冻RPN的不同层以进行微调,并且根据经验,解冻预测目标性的最后一层足以产生显著的改进(结果在设置4.3中给出)。
为了保持基类的性能,我们提出了偏置平衡的路由选择网络来集成预处理的路由选择网络和微调的路由选择网络。适当提高Cb和Cn提案集合了目标预测头。给定一个大小为H × W的特征映射,基础RPN预测一个目标映射mathcal{O}_{b}^{H times W} ,微调RPN预测mathcal{O}_{n}^{H times W} ,偏差平衡RPN的最终输出目标定义为mathcal{O}^{H times W}=max left(mathcal{O}_{b}^{H times W}, mathcal{O}_{n}^{H times W}right) 。请注意,在微调阶段,只有微调RPN的目标被设置为未冻结。盒子回归和卷积层在基本RPN和微调RPN之间共享,如图3所示。理论上,最大操作保证了RPN不会灾难性地忽略先前学习的类的提议。在计算开销和额外的权重很小的情况下,我们相信偏置平衡RPN可以作为G-FSD的通用组件。在微调阶段,保留型射频识别网络的全损失函数为:
mathcal{L}_{f t}=mathcal{L}_{o b j}^{n} mathcal{L}_{d e t}
其中mathcal{L}_{o b j}^{n} 是微调RPN的目标层上的二元交叉熵损失。
训练作为一种基于迁移学习的方法,Retentive R-CNN分两个阶段进行训练:对D-B进行预处理,然后对D-N和D-B子集的组合数据集进行微调。如上所述,我们只解冻了三个层:微调后的RPN的对象性、分类的最后一个线性层和d e t^{n} 的框回归。由于保留了基类性能的能力,我们可以应用更快的学习时间表进行微调,例如,与TFA的160000次迭代相比,10次MS-COCO的迭代为5000次[25]。
Inference.
给定来自偏置平衡的旋转相位网络的目标提议,相应的特征被并行地馈送到再检测器的两个头部。两个头的预测框集合成一个,用于最后的NMS程序。由于operatorname{det}^{b} 在某种程度上更可靠,因为它从丰富的数据中学习,如果d e t^{b} 预测的分数超过前NMS阈值,我们会为它们增加一点奖励(在我们的实现中为0.1),这可能会鼓励NMS过程在d e t^{b} 和d e t^{n} 找到相似的基类结果时获取d e t^{b} 的输出。更多细节将在补充材料中描述。由于偏置平衡RPN和Re-detector中的主干层和特征转换层在两个检测器头之间共享,因此与普通的R-CNN相比,我们可以在几乎没有头的情况下保持基类性能。
5、实验
5.1、实验设置
我们在基于 MS-COCO和Pascal VOC的成熟少样本检测基准上评估我们的方法,遵循以前工作中相同的类分裂和数据分裂进行公平比较。我们在MS-COCO上报告5,10,30次结果,在Pascal VOC的3次随机分裂上报告1,2,3,5,10次结果。至于 G-FSD的问题,两个级别的整体表现是我们主要关注的。我们复制Meta R-CNN[47]和FsDetView,使用完全相同的样本进行微调,而不改变超参数(通过运行它们的官方代码),并在右上角用*表示复制的结果。ONCE、MetaDet和FSRW的结果来自他们的原始论文。我们使用一个以FPN为骨干的图像网预处理的ResNet-101。Db上的预处理与[42]中的相同,然后通过随机初始化微调层。对于所有实验,我们将学习速率设置为0.05,将λ设置为0.1,以进行微调,直到完全收敛。
5.2、比较实验
我们将我们的结果与基于迁移学习和元学习的方法进行了比较。为了保持基本类的性能,人们可以很快提出一个具有N个二进制分类器的R-CNN模型,用于检测由N个类组成的数据集,因为二进制分类器彼此解耦。我们还训练这样一个模型(表示为FRCN-BCE),以感兴趣区域分类的二进制交叉熵损失为强基线,使用与保留的R-CNN相同的超参数,除了初始化分类器的偏差,如RetinaNet。
Results on MS-COCO
表3显示了在不同数据设置下,所有类别、基本类别和新类别(AP、bAP、nAP)的平均精度超过0.5至0.95 IOU阈值。我们在AP和bAP上显著优于以前的方法,因为我们的方法在基类上根本不会降级。与此同时,我们在小说类上也取得了有竞争力的结果(10-shot和5-shot和30-shot的水平相当)。为了实现增量检测稀有对象的目标,ONCE不会降低基类的性能,但是它在两个类上的性能都是有限的。竞争非常激烈的TFA模型可以随着样本的增加逐渐恢复基本类性能;然而,差距仍然是不可或缺的,例如,30发TFA w/cos和基础模型之间的bAP差距高达3.4。不出所料,FRCN-BCE可以从本质上保持其预训练模型的基本类性能,但在基本类和新类上的性能都远远低于普通的RCNN。考虑到保留的R-CNN只增加了很少的开销,而层大多是共享的,我们的方法是G-FSD的一个更好的选择。尽管MPSR在30-shot时的nAP性能略优于我们的方法,但在基本类上的性能下降是显著的,因此它不适合于G-FSD。在Meta R-CNN和FsDetView中可以观察到更大的性能下降,可能是因为它们根据由某个类别关注向量重新加权的特征来预测感兴趣区域的整体概率分布。FSRW在一定程度上缓解了巨大的性能下降(见表4),它仅预测了重加权向量类别的概率。
Results on Pascal-VOC
表4和表5分别显示了 VOC基准的总体和新颖的分类结果。原论文的Meta R-CNN的结果也包含在表5中作为参考。请注意,结果不具有直接可比性,因为用于微调的样本是不同的,这会对最终指标产生重大影响。由于不遗忘特性,我们在所有数据分割中始终优于所有方法。如上所述,MPSR和其他几种元学习方法在整体表现上表现不佳,因为在微调阶段基础知识被遗忘了。请注意,新类的性能不是我们主要关注的,但是,在大多数情况下,如表5所示,在挥发性有机化合物小说类的情况下,保持性R-CNN取得了竞争结果。MPSR[45]创造了大多数最好的nAP记录;然而,牺牲了不可忽略的基类性能。与更好地保持基类性能的方法相比,我们在大多数情况下优于当前最好的TFA,在其余情况下具有近似的结果。
5.3、消融研究和可视化
不失一般性,我们在COCO基准上进行了10-shot场景下的消融实验。除非另有说明,所有模型都用相同的超参数训练。
Bias-BalancedRPN.
为了验证我们设计的有效性,在表6中评估了不同类别的不同RPN设计的RPN召回率和最终检测精度的结果,包括RPN输出的集合策略和微调期间未冻结层的选择。在其他选择中,将max作为集合策略表现最好。采用几何平均会显著降低性能,因为任何低目标都会产生较低的最终分数。从实验中还可以看出,新的类AP与RPN的增强现实密切相关,而基类AP可以在稍微差一点的RPN增强现实中保持稳定,这验证了我们对debias RPN的设计思想之一,从而提高了新的类性能。解冻盒子回归层和集合没有太大区别。因此,额外的计算开销是不必要的。
Re-detector.
我们研究了重检测器中的各种设计选项,包括一致性损失的形式(KL散度、L1差和基类上归一化边缘概率分布之间的负余弦相似性)、重检测器中设置未冻结的层和分类器的选择。如表7所示,我们当前的设计最大化了整体性能。令人惊讶的是,解冻更多的层甚至会降低性能。此外,为了验证对基本类和新类进行微调的必要性,我们还实现了一个Re检测器,其中f^{n} 只检测Cn。它产生相对较低的结果,可能是由于在测试期间遇到基类中的不同对象时出现更严重的误报,但在微调期间看不到,并且模型被训练为将这些对象分类为与仅来自少数样本的那些停用的背景特征相同,这无疑是具有挑战性的。
Inference time.
我们在COCO 2014测试集上报告了每个图像的平均推理时间,方法是在表8中的Faster R-CNN中添加模块。Meta R-CNN的推理时间也为需要样本进行推理的代表性元学习方法提供了参考,据我们所知,这些方法也引入了比其他方法低得多的额外计算。由于大多数权重被设置为冻结和共享的,保持性研究神经网络在测试期间引入了很少的开销来实现少样本检测而不忘记,特别是与测试时需要样本的元学习模型相比。
Visualization.
我们在图4中提供了由美国有线电视新闻网和TFA电视台获得的示例性结果,用于在MS-COCO 10镜头设置下进行比较。我们的方法的不遗忘特性可以从包含拥挤场景或不太突出的实例的最后四幅图像中观察到,其中TFA[42]倾向于忽略这些对象中的一些,例如,第三幅图像中不明显的棒球棒被忽略,并且许多博学的对象在第四幅图像中被TFA[42]监督。在某些情况下,我们在小说类上的表现也更好,如前两张图片所示。我们通过比较我们的方法和TFA w/cos[42]的分类分布以及一个基本检测器,进一步研究了一致性损失的作用。具体来说,我们展示了基类和新类的两个代表性例子,并可视化了它们的分类器的逻辑以供分析。为了进行公平的比较,我们的方法和TFA w/cos[42]都是在同一个基检测器上训练的。可以很容易地观察到,我们的方法在基类上产生了比基本模型更相似的逻辑分布,而不是TFA w/cos[42]。这样的属性可以更好地保留基类性能,如图5(a)所示,其中基本模型和我们的模型产生具有一个强峰值的单峰分布。当涉及到新颖类时,如图5(b)所示,基类分布被抑制,从而对新颖类做出更自信的响应。
6、结论
在本文中,我们提出了一种保持性的快速学习神经网络来解决快速学习神经网络的问题,并证明了在目标检测中无遗忘的少量学习是可以实现的。我们分析基于迁移学习的少样本检测,并发现被社区忽略的有用属性。为了利用这些特性,保持性检测器被设计为简单有效地将基本检测器和新检测器结合起来,其中偏差平衡检测器减轻了预先训练的检测器的偏差,并且重新检测器可靠地找到基本类和新类的目标。在建立良好的少样本检测基准上的实验表明,保持性在基本类上不退化,而在新类上保持竞争力,在所有数据设置中达到最先进的整体性能。消融研究验证了我们设计的有效性。然而,在数据受限的类上,少样本和一般目标检测之间的巨大性能差距表明,这个任务本质上是艰巨的,我们希望这篇文章能够揭示进一步提高新的类度量的工作,而很少或没有对基类的权衡。