Cal-DETR是一种用于检测目标在图像中的位置和长宽比的Transformer模型。该模型采用了自注意力机制,能够对图像中的局部特征进行建模,并利用位置编码器来引入目标位置信息。此外,该模型还采用了可分离卷积层,以减少计算量和提高模型效率。实验结果表明,与传统的基于深度学习的方法相比,Cal-DETR在检测目标位置和长宽比方面具有更高的准确性和稳定性。 尽管深度神经网络(DNNs)在许多计算机视觉任务上表现出令人印象深刻的前景预测性能,但它们往往容易产生过度自信的预测,这限制了DNNs在许多安全关键应用中的采用和更广泛的利用。尽管最近已经有一些关于校准DNNs的研究,但几乎所有这些研究都集中在分类任务上。令人惊讶的是,很少有关于校准现代基于DNN的目标检测器的研究,特别是检测Transformer,这种检测器最近在检测性能方面表现出令人鼓舞的结果,并在许多决策系统中产生了重要影响。 在这项工作中,作者通过提出一种校准检测Transformer(Cal-DETR)机制,特别是针对Deformable-DETR、UP-DETR和DINO,解决了这个问题。 作者遵循训练时的校准途径,并做出了以下贡献:
- 首先,提出了一种简单而有效的针对基于Transformer的目标检测器中不确定性量化的方法。
- 其次,开发了一种利用不确定性进行分类对数调制机制。
- 第三,开发了一种作为具有特定检测损失的规范器,同时也补充了利用不确定性进行分类对数调制技术的校准性能进一步改进。
- 最后,在三个域和四个域的广泛实验中进行了测试。结果证实了Cal-DETR在校准时,在保持或甚至提高域内和域外检测性能的同时,与竞争的训练时方法相比具有有效性。
代码和预训练模型: https://github.com/akhtarvision/cal-detr
1 引言
深度神经网络(DNNs)在计算机视觉领域取得了显著的进步,涵盖了诸如分类、目标检测和语义分割等任务。由于它们的高预测性能,DNNs在许多实际应用中越来越被采用。然而,已经证明,即使DNNs不正确,它们也经常做出非常确信的预测。预测信心和实际正确性的错位可能破坏DNNs的信任,可能导致在安全关键应用中造成不可挽回的损害,例如医学诊断、自动驾驶[9]和司法决策[49]。
除其他因素外,DNNs过度自信预测的一个重要因素是使用零熵目标向量进行训练,这些目标向量不包含不确定性信息[12]。早期的方法旨在减少模型的校准错误,提出了各种后处理技术。通常,使用一个单独的温度缩放参数来重新缩放使用隔离验证集训练的模型学习的对数似然值。尽管有效且简单,但它们依赖于架构,并且需要一个隔离集,这在许多实际场景中是不可用的。最近,作者看到了训练时校准方法的出现。
它们通常基于一个辅助损失,在训练过程中充当预测的规范化。例如,[28]在标签平滑技术中对对数似然距离施加一个间隔约束,而[12]则开发了一个辅助损失来校准最大类和非最大类的置信度。这些训练时的方法比各种现有后处理方法显示了更好的校准性能。
作者注意到,大多数DNN校准方法针对分类任务。令人惊讶的是,很少有关于研究检测器校准的注意力。检测器是计算机视觉中的一个基本任务,其应用于安全关键任务的应用正在迅速增长。此外,大多数现有方法都集中在校准时域预测。然而,部署的模型可能会暴露于不断变化的分布中,这些分布可能与其训练分布根本不同。
因此,在这篇论文中,作者旨在研究目标检测方法在域内和域外预测时的校准。特别是,作者将最近基于Transformer的目标检测方法[5; 53; 51]考虑在内,因为它们是当前最先进的状态,具有更简单的检测管道。此外,它们正受到科学界和行业从业者的日益关注。
在本文中,受训练时校准范式的启发,作者提出了一种不确定性引导的对数调制和一种对数混合方法来改进检测器Transformer(被称为Cal-DETR)的校准。为了调制对数,作者提出了一种新的简单方法来量化基于Transformer的目标检测器中的不确定性。
与现有方法不同,它不需要任何架构修改,并具有最小的计算开销。然后,利用估计的不确定性来调制分类对数。接下来,作者在对数空间中开发了一种混合方法,它作为具有检测特定损失的规范器来进一步改进校准性能。
两者作为校正器是相互补充的。作者在三个域和四个域的场景下,包括大规模目标检测MS-COCO数据集,对最近基于Transformer的检测器(Deformable-DETR(D-DETR),UP-DETR和DINO)进行了广泛实验,结果表明Cal-DETR在改进域内和域外校正的同时,保持或甚至提高检测性能,与已经建立的训练时校正方法相比具有有效性。
2 相关工作
基于视觉Transformer的目标检测
视觉Transformer正在为图像分类、语义分割和目标检测等领域实现最先进的表现。DETR的工作首次将基于Transformer的目标检测流水线引入视觉领域,通过使用二分匹配消除像匹配特定真实值的目标匹配等后处理步骤,从而消除了非极大值抑制。
然而,DETR收敛速度非常慢,对小目标表现不佳,为解决这些问题,Deformable-DETR被提出,它基于DETR中的标准自注意力,而是使用可变形注意力模块。 [5]的工作进一步增强了这种目标检测流水线的性能,通过预训练编码器-解码器参数。
最近,DINO通过对比去噪训练、双向往视方法以及集成有效的锚点初始化,提高了检测性能。
模型校准
模型校准需要模型预测置信度与其实际正确性的实际可能性完全对齐。一种最早的模型校准技术被称为后处理温度缩放(TS),它是一种Platt缩放的变体。思想是用一个单独的温度参数(T)重新缩放使用隔离验证集学习的对数似然值。但是,TS的一个局限性是温度参数T值的选取取决于网络架构和数据。此外,TS已被证明对于校准时域预测是有效的。
为了将TS扩展到域漂移场景,[45]提出在后处理步骤之前扰动隔离验证集。Dirichlet校准(DC)从Beta校准扩展到多类设置。它使用一个额外的神经网络层将校正概率对数变换,该层参数使用验证集学习。尽管有效且计算成本低,但后处理校准方法需要验证集的存在,这对于许多实际应用场景来说是一个难以满足的要求。
训练时校准方法通常通过与特定任务损失函数一起优化的辅助损失函数在训练期间调整模型参数。一些方法旨在显式或隐式地最大化预测分布的熵。例如,[35]提出了一个基于熵的辅助项,在训练期间最小化以减轻过度自信预测的影响。沿着类似的道路,[32]调查了标签平滑(LS)技术是否也能减少校准误差,[31]证明了Focal Loss(FL)可以提高模型校准。
这些方法是有效的,然而,它们的对数距离约束往往会导致非信息的解。为了规避这个问题,[28]提出了对数距离约束的基于边界的泛化,以实现对判别性能和校准性能之间的更好平衡。 [12] 提出通过形成一个称为多类差异的置信度和准确度的辅助损失项来校准预测和未预测类的置信度。
所有上述校准技术都针对分类任务,最近[33]开发了一个训练时校准损失,用于目标检测,它对多类预测和预测置信度与IoU得分之间的差异施加约束。
不确定性估计和模型校准
由于贝叶斯推断的计算不可行性,已经提出了不同的近似推断方法,如变分推断,和随机期望传播。 [34]评估了在分布转移下模型的预测不确定性,并研究了其对准确度-不确定性权衡的影响。 [19]利用模型的预测不确定性,并提出了将其与准确性对齐,[18]引入软桶并使校准误差估计可微分。还可以通过考虑模型预测的实证方差来量化不确定性。这可以实现更好的判别性能和改善预测不确定性估计,从而获得校准良好的模型。可以形成具有不同权重初始化和训练示例随机重排的集合和蒙特卡罗(MC)Monte Carlo (MC) dropout。
然而,基于集合的不确定性估计技术可能计算成本高,特别是在复杂模型和大规模数据集中。在这项工作中,作者提出了一种简单而计算高效的用于量化基于Transformer的目标检测流水线中的不确定性的技术。
3 方法
本节首先讨论了预备知识,包括校准目标检测器的相关问题和背景知识。然后,作者详细介绍了作者提出的 Cal-DETR 方法,包括不确定性引导的对数调制和对数混合用于校准最近的视觉Transformer(ViT)目标检测方法(图1)。
图1: 主要架构: 图像通过特征提取器CNN处理后,直接传递到未修改的Transformer的编码器结构中,而解码器结构则被修改以获得模型良好校准。对数似然值基于不确定性量化进行调制,该量化利用解码器内置设计,无需额外计算成本(第3.3.1节)。此模块后跟随对数混合机制,包括一个正则化器(
)以获得校准预测(第3.3.2节)。图的右侧描绘了类别(confidence)。基线检测器(D-DETR [53])输出一个相对较高置信度的错误狗预测,而作者的Cal-DETR提供了高置信度的准确猫预测。绿色方框表示准确预测,而红色(虚线框)表示不准确的预测。蓝色边界框代表对应检测的真实值。
和
分别表示分类(classification)和定位(localization)损失[5; 53; 51]。
预备知识
在本节中,作者首先讨论了问题设置和与校准目标检测器相关的背景知识。然后,作者详细介绍了作者的方法 Cal-DETR,包括不确定性引导的对数调制和对数混合,用于校准最近基于视觉Transformer(ViT)的目标检测方法(图1)。
联合分布
作者假设一个联合分布
,其中
是输入空间,
是对应的标签空间。
是从这个联合分布中采样得到的数据集,其中包含输入图像
和相应的标签
的配对。输入图像属于
,其中
是高度,
是宽度,
是通道数。
对于每个输入图像
,作者拥有相应的真实标签
,它包括类标签
和边界框坐标
。其中
是类标签
,
是边界框
坐标。接下来,作者在分类和目标检测任务中定义模型的校准。
一个模型被说成是校准的,当其准确性完美地与预测置信度对齐。未校准的模型倾向于做出过度自信和不够自信的预测。
为了减轻这些问题,对于图像,模型应该能够预测与其实际正确性概率相匹配的类置信度。令
是一个分类模型,它预测一个类标签
,并具有置信度分数
。
现在,分类任务的校准可以定义为:
。这个表达式表明,为了在分类任务中实现完美的校准,预测置信度和准确性必须匹配。
令
为检测模型,它预测一个边界框
和相应的类别标签
,并具有置信度分数
。检测任务的校准定义为
。其中
表示当预测和实际类相同时,目标检测模型的真正预测,此时预测和实际框的IoU均高于预定义阈值
,即
。
表示假预测,与
一起确定精确度。在目标检测中,为了实现完美的校准,模型的精确度必须匹配预测置信度。在下一小节中,作者将重新检查校准公式。
3.1 测量校准
分类
对于分类问题,校准误差(ECE)用于测量不准确度。它计算所有可能置信度水平下的准确度期望偏差:
。
在实践中,ECE度量通过以下步骤进行近似:
- 将置信度得分空间划分为B个相等大小的bin
- 计算落入bin中的样本的平均准确度和平均置信度的差异
- 对每个差异进行加权,乘以该bin中样本的相对频率
其中,
和
分别表示第
个bin中的样本的平均准确度和平均置信度,
是第
个bin中的样本集,
是总样本数。
目标检测
与ECE类似,D-ECE(检测期望校准误差)是测量精度从置信度中预期偏移的连续变量,在所有置信水平下进行度量。它可以通过
表示。与方程(1)类似,置信度是一个连续变量,因此作者可以近似D-ECE:
其中
包含第
个bin中的一个目标实例集合。
请注意,D-ECE仅考虑精度与置信度之间的关系,而不考虑平均精确度(mAP)。mAP需要计算不存在的检测的召回率,因此与之相关的置信度不存在。
3.2 Cal-DETR:不确定性引导的对数调制与混合
现代目标检测方法在许多安全关键应用中占据中心位置,因此研究它们的校准至关重要。最近,基于视觉Transformer(ViT)的目标检测方法(例如,Deformable-DETR(D-DETR),UP-DETR和DINO)正在受到工业实践者和研究人员的重视,因为它们具有最先进的表现和相对简单的检测管道。
因此,作者旨在研究ViT基础上的目标检测的校准。为了提高基于Transformer的目标检测的校准,作者首先描述了作者的不确定性引导的对数调制方法(第3.3.1节),然后提出了一个新的对数混合正则化方案(第3.3.2节)。
1 不确定性引导的对数调制
作者首先简要回顾DETR管道,它是一个流行的ViT基础目标检测管道。最近的基于Transformer的检测器大量借用了DETR管道的架构。然后,作者描述作者的新不确定性量化方法,并说明它是如何被用来调制解码器的对数,从而最终校准置信度。
作者再次回顾DETR管道,它是基于ViT的第一种目标检测管道,其动机是消除现有目标检测管道中需要手动设计的组件。它由一个基于集的Hungarian损失的Transformer编码器-解码器架构组成,以确保针对每个地面真实边界框的唯一预测。
假设存在由ResNet生成的特征图
,DETR依赖于标准的Transformer编码器-解码器架构将这些特征图投影为一组目标查询的特征。检测头中的前馈神经网络(FFN)回归边界框坐标和分类置信度得分。
2 在DETR管道中量化不确定性
一些最近的研究表明,模型的总体(输出)预测不确定性与其校准有关。因此,估计模型的不确定性可能有助于协助置信预测与检测模型的精度对齐。
为此,作者提出了一个新的DETR管道不确定性量化方法,该方法利用了Transformer架构的核心组件,即解码器。这是一种简单技术,不需要改变现有的架构,并且与Monte Carlo (MC) dropout和深度集成相比具有最小的计算成本。
具体来说,令
和
分别表示所有解码层和最后解码层的输出。其中
是解码层的数量,
是批量大小,
是查询数量,
表示类别数。为了量化每个类logit
的不确定性,作者计算
维上的方差,其中包含解码层的多重输出。换句话说,解码层的输出变化反映了类logit
的不确定性。总体而言,在计算
的第
维上的方差后,作者得到一个张量
,它反映了查询和mini-batch维度上每个类logit的不确定性。
对数调制:
作者使用:
将不确定性
转换为确定性,其中
用于将不确定性值从
缩放到
,并使用这个确定性来调节最终层输出的对数,即:
。
其中,
是经过不确定性调制的解码器输出,然后成为损失函数的输入。
表示,如果对数空间中的一个输出具有更高的不确定性,它将相应地进行下标。换句话说,更高的不确定性隐含着输出对数值(即预置信度分数)的可能较差校准。
对数混合用于置信校准
除了不确定性引导的对数调制,作者还开发了一种新的对数混合方法,它作为具有检测特定损失的正则化器,进一步改进置信校准。作者提出对数混合作为在目标检测器对数空间的混合,它受到分类输入空间混合的启发。在DETR管道中,对数空间具有
的维度,其中
是目标查询的数量,
是类别的数量。作者只考虑正查询进行对数混合,因为它们负责检测目标。在目标检测中,实例级目标信息很重要,因为作者需要考虑与边界框分配的阳性类别相关的置信度得分。
在作者的对数混合方案中,作者首先通过计算所有正查询的平均值构建一个原型表示,然后用它来混合任意给定的正查询。例如,给定三个正查询,令
=
(总查询数量)属于目标类别,并令
是所有正查询的典型表示,作者形式的表达式如下:
(4)。
现在,
是
在对数空间的混合版本。
是对数的重量。对于
的选择,更多信息请参见第4.2节。
作者利用提出的对数混合输出
进行正则化损失,其表达式为:
,其中
包含经过混合值平滑后的标签。与one-hot标签不同,
确定了目标实例中类别的权重。具体来说,给定一个正查询的
值贡献于平滑标签,而其他贡献形成原型表示的正查询共享1-
值,以均匀方式平滑相应标签。
损失
与任务特定的分类损失
一起用于获得联合损失形式:
,其中
表示未混合的对数似然值,
控制正则化损失的贡献。所提出的正则化损失通过混合对数似然值构建非零熵目标分布,从对数空间中靠近目标实例的信息中捕获信息。这通过可能降低过拟合来惩罚模型产生过度自信的预测。
作者的实验结果(第4.1节)表明,这不仅提高了模型校准,还在大多数场景中提高了整体检测性能,同时也补充了不确定性引导的对数调制技术。
4 实验与结果
数据集:
为了进行实验,作者使用了各种域内和域外的基准数据集。以下详细说明:
- MS-COCO是一个大规模的目标检测数据集,包含80个类别。它分为118K训练图像,41K测试图像和5K验证图像。训练集(train2017)用于训练,而验证集(val2017)用于评估。
- CorCOCO包含与MS-COCO中val2017相同的一系列图像,但具有损坏版本。在域外场景中,引入了随机的损坏程度水平的随机损坏。
- Cityscapes是一个城市驾驶场景数据集,包含8个类别 *person, rider, car, truck, bus, train, motorbike, and bicycle*。训练集由2975张图像组成,而500张验证图像作为评估集。
- Foggy Cityscapes是一个带有浓雾的城市场景的版本,在域外场景中,使用模拟的严重浓雾的500张验证图像进行评估。BDD100k 包含100000张图像,其中70000张为训练图像,20000张为测试集,10000张为验证集。类别类似于Cityscapes,在评估时考虑验证集,并从中选择日光图像作为域外场景,将集合减少到5200张图像。
- Sim10k包含10000张合成图像,其中包含来自汽车的8000张训练图像,对于评估集,将图像分为1000张。
数据集(验证后处理):
对于给定的场景,作者为后处理校准方法(温度缩放)选择单独的验证数据集。在MS-COCO场景中,作者使用Object365验证数据集,该数据集反映了类似类别。对于Cityscapes场景,作者使用BDD100k训练集的一个子集作为验证集。对于Sim10k场景,作者使用图像的剩余部分。
检测校准度量:
对于目标检测器的校准,作者使用检测预期校准误差(D-ECE)作为评估指标,用于计算域内和域外场景。
实现细节:
作者使用最先进的基于Transformer的检测器Deformable-DETR(D-DETR),UP-DETR和DINO作为基线,它们都是未校准的。使用各自的域内训练数据集,作者用所提出的办法训练D-DETR,并与基线、后处理方法和训练时校准损失集成与D-DETR进行比较。作者在验证集上进行实验,并使用logit混合参数
,
和
(见第4.2节)。对于分类损失,Focal Loss被集成,对于定位,损失是广义IoU和L1,如[26, 2]所述。对于更多实现细节,请参阅D-DETR[53],UP-DETR和DINO。
主要结果
真实和损坏:
作者在大型数据集(如MS-COCO,作为域内数据集,其图像损坏版本作为域外数据集,CorCOCO)上评估校准性能。CorCO评估集由从[13]中包含随机严重性和随机损坏级别的图像构建。作者的方法不仅提供了较低的校准误差,还显示了改进的检测性能。对于D-DETR,与基线未校准模型相比,作者的方法改进了校准4.4%(域内)和1.9%(域外)。
在这个数据集中,作者观察到基于分类的训练时校准损失(如MbLS [28]和MDCA [12])对于检测问题是不够好的,并且在某些场景中比基线更差。作者证明作者的方法优于训练时损失,并实现了更好的校准,例如与检测器校准损失(如TCD [33])相比,改进了3.4%(域内)和1.5%(域外)。对于UP-DETR,作者的方法将校准从基线改进了1.6%(域内)和2.0%(域外)。
对于更多的结果,请参阅图2,表1和表2。作者还提供了DINO模型在COCO(域内)和CorCOCO(域外)上的结果,如表3所示。作者的Cal-DETR在域内和域外都改进了这种强大的基线的校准性能。
天气:
作者的方法在基线、后处理和训练时损失方面显著提高了校准,同时检测性能得到了改善或具有更好的校准分数。在基线上,作者在域内实现了5.4%
(下降)的改进(下降),在域外实现了7.6%
(下降)。Tab. 4和图2展示了进一步的结果。
城市场景:
作者证明作者的方法可以提高校准和/或具有竞争力,尤其是在域外。例如,与MDCA[12]相比,作者的方法在域内提高了5.0%
的校准(下降),在域外提高了2.8%
的校准(下降)。使用作者的方法检测性能也有所提高。与[33]进行比较,作者的方法提高了1.4%
的校准。更多的结果请参阅Tab. 4。
合成和实际:
这种场景评估Sim10k作为域内数据集,BDD100k子集反映与Sim10k相同的类别作为域外数据集。在基线上,对于域内数据集的校准改进为4.1%
,对于域外数据集的校准改进为1.0%
。与MbLS[28]相比,作者的方法在域内显示了更好的校准,改进了16.3%
(下降),在域外显示了10.5%
(下降)。Tab. 5展示了进一步的结果。
可靠性图:
图3在选定的MS-COCO类别上绘制了可靠性图。它可视化了D-ECE,完美检测校准意味着精确度和置信度对齐。
Ablation & Analysis
作者进行了针对作者提出的方法的消融和敏感性实验。本节介绍了参与作者提出方法中的各个组件的影响。对于超参数的选择和敏感性实验,作者将Cityscapes的训练集分为训练/验证集(80%/20%)。
组件的影响:
作者分别研究对数调制(
)和对数混合(
)的功能,以了解它们对校准性能的影响。
在Tab. 6中,作者在Cal-DETR中加入单个组件时,校准性能得到了改进。当作者将两者结合时,校准性能和检测性能得到了进一步提高。作者认为这种改进可能是由于对数空间中的更大多样性,因为作者除了混合对数外,还可以访问非混合对数。
对数混合权重:
作者在单独的验证集上研究了作者提出的方法中使用的对数混合权重。保持
的范围,作者在实验中观察到,当
时,检测性能和模型校准的最佳折衷取得。作者注意到,对于更高的
值,校准性能具有竞争力,但对于
,整体上观察到改进。Tab. 6(a)显示了Cal-DETR中
的行为。
单
的选择:
几种mixup策略通过使用另一个随机选择的图像来混合输入图像,通常涉及两个样本的过程。在作者的方法中,作者在对数空间中进行查询实例/目标级别的mixup。首先,作者使用所有正查询构建一个原型表示,然后用于实现给定正查询的mixup。由于这种与传统mixup策略的不同,作者的传统mixup实验导致次优结果。这种次优性能可能是由于logit混合同时抑制具有较低任意
的目标表示和多个正查询的占主导地位的prototype表示。值得注意的是,与校准其他方法相比,采样策略(Cal-DETR
)仍然有效。作者报告了这些结果。
正则化损失权重:
损失权重的影响在验证集上进行了研究,结果显示使用正则化函数的
是一个更好的选择。这个设置提高了检测性能,同时也提高了校准性能。趋势表明,对于更高的
值,校准更具竞争力(见Tab. 7b)。
D-UCE补充D-ECE:
为了调查不确定性校准在补充信心校准中的作用,作者在图4中分析了检测预期不确定性校准误差(D-UCE)。
5 结论
在本文中,作者通过引入Cal-DETR解决了最近基于Transformer的目标检测器的校准问题。作者提出了一种新的技术来估计基于Transformer的检测器中的不确定性,然后利用它来开发一种不确定性引导的对数调制技术。
为了进一步提高校准性能,作者开发了一种新的对数混合策略,它作为一个正则化器对具有任务特定损失的检测进行处理。
在几个域内和域外设置上的广泛实验验证了作者的方法与现有的训练时和后处理校准方法的有效性。作者希望作者的工作将鼓励对目标检测器校准的新研究方向。
6 参考
[1].Cal-DETR: Calibrated Detection Transformer.