小目标检测(SOD)一直是多年来持续存在且具有挑战性的任务,已经开发出众多数据集和算法。然而,它们主要关注可见光或热成像模态,而可见光-热成像(RGBT)双模态却鲜少被探索。 尽管近年来已经开发了一些RGBT数据集,但数据量不足、类别有限、图像对齐错误以及目标尺寸过大,无法为评估多类别的可见光-热成像小目标检测(RGBT SOD)算法提供一个公正的基准。 在本文中,作者构建了首个具有高多样性的大规模RGBT SOD基准(名为RGBT-Tiny),包括115对序列、93K帧和1.2M的手动标注。RGBT-Tiny含有丰富的目标(7个类别)和高多样性场景(8种类型,涵盖不同的光照和密度变化)。 值得注意的是,超过81%的目标小于16x16,作者提供了带有跟踪ID的成对边界框标注,以提供一个具有广泛应用前景的极具挑战性的基准,如RGBT融合、检测和跟踪。 此外,作者提出了一种尺度自适应适合度(SAFit)度量,该度量在大小目标上都表现出高度的鲁棒性。 所提出的SAFit可以提供合理的性能评估并提升检测性能。基于所提出的RGBT-Tiny数据集和SAFit度量,进行了广泛的评估,包括23种最近的顶尖算法,涵盖了四种不同类型。 项目可在https://github.com/XinyiYing/RGBT-Tiny获取。
1 Introduction
小物体以其极小的尺寸而著称(例如,小于像素[1]),总是难以检测。小目标检测(Small Object Detection,简称SOD)近年来受到了广泛关注,并因其有价值的应用而成为独立于通用目标检测的一个挑战性研究方向,这些应用包括视频监控[2, 3]、自动驾驶[4, 5]和水上救援[6, 7]。目前,SOD的进展面临以下挑战。首先,极小的尺寸和显著减少的外观线索为特征表示学习带来了严重限制,而复杂的背景杂物对小物体的检测产生了负面影响,可能导致许多误报。其次,缺乏大规模、高质量的数据集极大地阻碍了SOD的发展。最后,通用目标检测中常用的基于IOU的评价指标对小物体的边界框(bbox)扰动容忍度低,不能保证高定位精度。因此,在本文中,作者旨在通过首先构建一个针对SOD的大规模数据集,然后开发一种名为尺度自适应拟合度(scale adaptive fitness,简称SAFit)的SOD新评价度量,最终利用所开发的数据集和提出的SAFit度量广泛评估各种针对SOD的深度特征学习方法,来解决上述挑战,以推动SOD的发展。
作者构建了一个针对SOD的新的大规模数据集,解决了以下核心问题。首先,大多数现有研究独立关注可见光[8, 9, 10, 11]或热成像[12, 13, 14]模态,很少有研究探索在可见-热(RGBT)双模态内的多模态信息融合[15, 16, 17]。其次,尽管已经提出了各种数据集[6, 18]在可见光和热成像模态,但是有限的量[3, 14],不平衡的分布[7, 14],单一的模式[21, 25]以及低时间一致性[7, 13]阻碍了相应算法的发展。第三,现有的RGBT数据集要么是非配对的[31, 32],要么是为特定任务设计的(即,具有大尺寸的单目标跟踪[33, 34, 35],行人及车辆检测[36, 37, 38]),这些都不能提供公平的性能评估基准。上述问题促使作者构建了第一个具有高多样性的RGBT SOD大规模基准(名为RGBT-Tiny),这可以促进可见光和热成像模态下的单模态SOD以及多模态RGBT融合、检测和跟踪的发展。
作者提出了一种新的度量方法SAFit,以确保对大目标和小目标进行高度稳健的评估。具体而言,SAFit在大目标友好的IoU度量和小目标友好的NWD[39]度量之间执行大小感知的Sigmoid加权求和,可以根据相应的bbox大小快速切换到适当的度量。切换点由一个大小感知的参数灵活控制,以满足定制需求。此外,作者还开发了一个相应的SAFit损失,证明其对检测性能有益。
基于提出的新数据集RGBT-Tiny和新度量标准SAFit,作者对23种最新的前沿算法进行了广泛的性能评估,以提供一个涵盖可见通用检测、可见SOD 、热红外SOD 以及RGBT目标检测[55, 56]的基准。第4.2节展示了作者基准测试中的一些发现,作者相信未来会有更多发现和结论出现。
主要贡献总结如下:
- 作者构建了第一个大规模、高多样性的RGBT SOD基准数据集(即RGBT-Tiny),包括115对序列、93K帧和1.2M手动标注。与现有的26个基准数据集(包括可见SOD、热红外SOD、RGBT检测和RGBT跟踪数据集)相比,RGBT-Tiny对齐精细,并包含丰富的小目标、高多样性场景和高质量标注,如图1所示。
- 作者提出了一种尺度自适应拟合度(SAFit)度量,该度量对大小目标都具有很高的鲁棒性。所提出的SAFit在训练过程中配备时,可以提供合理的性能评估,并提升检测性能。
- 基于提出的RGBT-Tiny数据集和SAFit度量,作者对包括可见通用检测、可见SOD、热红外SOD和RGBT目标检测在内的23种当前最先进的算法进行了全面评估,这为后续研究奠定了坚实的基础。
2 Related Work
RGBT数据集。早期的RGBT数据集[36, 58, 60, 61]由于数量不足和类别有限,不能满足基于深度学习方法的数据需求。"随后,提出了具有丰富目标和场景以及各种应用的大型数据集[29, 31, 32, 33, 34, 35, 37, 38, 57, 59, 62, 63]。然而,这些数据集要么是非配对的[29, 31, 32],要么是为特定应用设计的,如单目标跟踪[29, 33, 34, 35, 57],行人检测[37, 59]和车辆检测[32, 62, 63],这些都无法提供公正的基准来评估多类别RGBT SOD算法。
RGBT目标检测。为了结合可见光和热成像模式的优势,RGBT数据集[37, 38, 59]出现并促进了RGBT目标检测方法[55, 56, 64, 65]的发展。然而,RGBT目标检测通常专注于特定任务(例如,行人[64, 65]和车辆[55, 66]检测),这缺乏用于多类别RGBT SOD算法发展的全面基准。此外,与通用SOD相比,RGBT SOD表现出更多挑战,包括时空不对齐、光照和密度变化以及有效的多模态融合。
评估指标。交并比(IoU)、基于边界框(bbox)的平均精度(AP)和召回率(AR)是可见光SOD[6, 18]广泛使用的评估指标。基于IoU,已经提出了许多修改版本,包括广义IoU(GIoU)[67],距离IoU(DIoU)[68]和完整IoU(CIoU)[68]。然而,这些指标关注于非重叠的bbox,但不能很好地解决对bbox扰动的低容忍度这一内在问题。因此,为SOD量身定制的新的评估指标绝对是必要的。
3 RGBT-Tiny Benchmark
RGBT-Tiny基准测试部分的开始。
Data Collection and Annotations
数据捕获。 作者使用专业的无人机DJI Mavic 2作为数据采集平台,以确保在极端条件下稳定飞行。在无人机上配备了垂直排列的RGBT双镜头,从60-100米的高度收集RGBT视频序列。可见光和热成像相机的帧率均为30,作者将公共视频中的视频序列采样为每秒15帧(FPS),以便更明显地展现时间运动。热成像相机的波长为8-14 ,可见光相机与热成像相机的图像尺寸不同(例如,RGB图像为10801920,热成像图像为512640)。
数据调整。 首先应用相机标定[69]去除RGBT图像中的镜头畸变。然后,作者采用单应性变换[70]将RGB图像与热成像图像对齐,因为RGBT相机的位置相对固定。为了解决RGBT图像之间的分辨率差异,作者裁剪与热成像图像一致的对齐RGB图像块,以生成分辨率为640512的配对RGBT图像。调整后的RGBT图像如图2(a)所示。请注意,单应性变换只能在固定景深(DoF)内进行帧对齐。因此,双镜头[71]固有的视差变化(如图2(b)所示)尚未得到很好解决,这是一个值得研究的挑战。
GT标注。 作者使用DarkLabel[72]来标注与相应类别和跟踪ID对应的GT边界框。注意,除了在极端条件下少数无法识别的标注外,RGBT标注是一对一对应的。为了确保质量,作者花费了超过2000小时进行两步验证。1) 十位专业标注者分别进行标注,并互相审查另一位标注者的工作。2) 每张图像由另外两名评估者(总共5名评估者)进行评估,并不断回访标注,直到没有疑问。
训练和测试集。 为了避免数据偏差和过拟合,训练集和测试集按照以下标准分为85和30个视频序列。1) 每个子集涵盖所有类型的场景和目标。2) 每个子集涵盖所有光照和密度变化。3) 两个子集不重叠。
Benchmark Properties and Statistics
丰富的多样性。如图3(a)所示,目标可分为7类(例如:船、汽车、自行车、行人、公交车、无人机和飞机)。可以观察到,尽管总体上是一致的,但热成像图中的标注数量要高于可见图像(例如:船和行人)。这是因为,如图3(b)所示,作者的数据集涵盖了不同的光照条件(即:高光照视觉在白天捕获,中光照、低光照和不可见光照视觉在夜间捕获),而在低光照和不可见光照条件下,热成像图可以提供额外的补充信息。需要注意的是,夜间序列占总数据的33.9%,其中超过70%是低光照和不可见光照条件下的。在一年时间内,在四个城市的8种场景(即:海洋、湖泊、桥梁、城市道路、乡村道路、操场、机场和天空)捕获了序列。
表1:现有RGB SOD数据集(RGB-SOD)、热成像SOD数据集(T-SOD)、RGBT跟踪数据集(RGBT-T)、RGBT检测数据集(RGBT-D)和作者的RGBT-Tiny数据集之间的统计比较。"Seq."、"Frame"、"Anno."、"T-Cat."和"S-Cat."分别代表序列数、帧数、标注数、目标和场景类别。"FPS"是发布视频序列的每秒帧数。"Split"代表数据分割的方式。"Align"代表RGBT图像是否对齐(是)或没有(否)。"ID"代表是否提供跟踪ID(是)或没有(否)。
为了获取不同季节、不同天气和不同地点的数据,作者将现有数据集的比较列于表1中。总之,作者提供了第一个大规模、精细对齐的RBGT SOD数据集,其中包含了丰富的目标和场景以及高质量的标注,这有助于RBGT融合、检测和跟踪的发展。
大密度变化。图4(a)显示了每个序列每帧的平均标注数量(即:密度),作者将密度分为三个 Level :稀疏{1,10}、中等{10,50}、密集{50,∞}。可以观察到,作者的数据集涵盖了广泛的标注密度(从1到161),不同场景之间的密度差异很大。具体来说,由于它们独特的目标和应用,城市道路和桥梁的密度远高于天空和机场,这可以为目标检测提供宝贵的先验知识。
小尺度目标。按照[1]中的一般规模等级,作者进一步将小尺度分为三个 Level :极其微小{1²,8²}、微小{8²,16²}、小型{16²,32²}。图4(b)显示了每个目标类别的规模与标注数量之间的关系。可以观察到,微小目标占据了最大比例(即:48%),超过97%的目标属于小型或更小型。此外,由于数据获取的不同角度(即:向上、正面和向下)和距离,图像中的目标绝对大小与真实目标大小不同。例如,由于远距离正面手持拍摄,较大的飞机大多被划分为极其微小规模;而由于近距离向下飞行拍摄,较小的公交车大多被划分为小型。总之,不能简单地根据它们的绝对大小来分类目标。应该考虑包括外观、密度和轨迹在内的综合属性,以实现准确的检测。
时间遮挡。对于短时间遮挡(少于5帧),作者采用边界框的时间插值[72]以保持一致性。对于长时间遮挡(超过5帧),遮挡帧保持未解决。在所有标注中,3.4%的稍微遮挡(5-10帧),3.4%的适度遮挡(10-20帧),5.2%的严重遮挡(超过20帧)。
Scale Adaptive Fitness Measure
归一化Wasserstein距离(NWD)[39]已被证明对SOD友好,因为它具有尺度不变性和对位置偏差的平滑性。其公式可以定义为:
其中 是预测边界框 = 和 GT (GT)边界框 = 的高斯分布之间的Wasserstein距离,中心点位置为 ,宽度 和高度 。 是与数据集[39]密切相关的超参数。然而,尺度不变的绝对距离度量无法为大型目标提供合理的评估。
交并比(IoU)[18]是评估大型通用目标性能的一种常见且合理的度量标准。其公式可以定义为:
其中 和 分别表示预测和 GT 的边界框。尽管IoU具有尺度不变性、对称性等优点,但对于小目标边界框的微小扰动表现出较低的容忍度,如图5(b)所示。一个小的位置偏差(例如,对于一个88大小的微小目标,2个像素的偏差)可能导致显著的IoU下降(例如,从1降到0.39)。总之,基于IoU的度量不适合评估SOD的性能。
为了结合IoU和NWD的优点同时避免缺点,作者开发了一种尺度自适应适合度(SAFit)度量,该度量对大目标和小目标都具有很高的鲁棒性。具体来说,作者通过大小感知的Sigmoid加权和来结合IoU和NWD:
其中Sigmoid函数表示一个软切换,可以通过相应的边界框大小快速切换到适当的度量。 是GT边界框的面积, 是在大小感知的方式下平衡NWD和IoU度量的常数。即当 时,NWD和IoU贡献相等。 的较低值(即,GT边界框的大小较小)导致NWD占主导,而较高的值则增加了IoU的比例。总之,SAFit适用于包含具有不同类别和大小的目标的实际应用。
在不同值(即16、32)下IoU和SAFit的定量比较如图5所示。可以观察到,当GT边界框的大小大于时,SAFit与IoU一致。随着GT边界框大小的减小,SAFit迅速转向NWD的尺度不变绝对距离度量,这对边界框扰动具有很高的鲁棒性。注意,通过调整的值,SAFit可以针对不同的定制需求提供灵活的应用。对于作者的数据集,作者将设置为小目标定义为小于3232。此外,作者开发了SAFit损失(即)用于网络训练,它可以为不同大小的目标提供稳定和准确的优化指导。注意,SAFit损失的每个组件(即IoU和NWD)可以灵活地被新度量替换。
4 Experiments
Scale Adaptive Fitness Measure
SAFit度量评估。 作者在三种最新的通用检测方法(即,Cascade RCNN [45],FCOS [49] 和 Deformable DETR [52])上使用IoU、NWD和SAFit度量进行性能评估。更多关于其他方法的结果在补充材料中列出。图6展示了在不同目标尺度下,可见光和热成像模态的AP结果。可以观察到,当GT bbox的大小小于32×32时,IoU的AP值远低于NWD的AP值,而在中等和大型目标中则得到相反的结果。这一现象直观地显示了IoU对小目标的不合理评估以及NWD对大目标的不合理评估。值得注意的是,当GT bbox尺寸较小时,SAFit的AP值更接近NWD的AP值,并且随着尺寸的增加迅速切换到IoU的AP值,这与图5的定量分析一致。总之,SAFit对大小目标都显示出全面的合理评估,具有很高的实用价值。因此,除非特别指定,以下所有实验结果都在SAFit度量下进行评估。
SAFit损失用于训练。 作者将不同的损失(即,IoU [18],DIoU [68],CIoU [68],GIoU [67],NWD [39] 和 SAFit损失)与不同的检测器(即,ATSS [50],SparseRCNN [53])结合,并在相同的设置下在可见光模态下训练网络。请注意,作者采用了SAFit损失的两种变体(即,SAFit-s 和 SAFit)来研究直接转换(即,当GT框大小小于时,损失函数设置为NWD,反之设置为IoU)和更强组件(即,GIoU和NWD的Sigmoid加权求和)的性能。表2展示了基于SAFit的结果。关于基于IoU的结果,请参考补充材料。可以观察到,在IoU和SAFit度量下,SAFit损失对不同检测器表现出高度的鲁棒性。此外,与SAFit-s损失相比,SAFit损失实现了更高的AP值,这证明了大小感知加权求和优于直接转换。而且,SAFit比SAFit表现出更优的性能,这证明了更强的组件进一步提升了检测性能。此外,与其组件相比,SAFit和SAFit在、上的值高于NWD,在上的值分别高于GIoU和IoU,这证明了作者的大小感知加权求和不仅能结合其组件的优点,还能通过为不同大小的目标提供更稳定和流畅的训练来实现突破。
Baseline Results
作者对包括14种可见光通用目标检测方法(例如,SSD [40],YOLO [41],TOOD [42],Faster RCNN [43],SABL [44],Cascade RCNN [45],Dynamic RCNN [46],RetinaNet [47],CenterNet [48],FCOS [49],ATSS [50],VarifocalNet [51],Deformable DETR [52]和Sparse RCNN [53])在内的23种最新检测方法进行了全面评估。还有3种可见光SOD方法(例如,RFLA [8],QueryDet [9],C3Det [10]),3种热成像SOD方法(例如,DNAnet [13],ALCNet [54],ACM [24])以及3种RBGT检测方法(例如,UA-CMDet [55],ProbEn-early [56],ProbEn-middle [56])。此外,作者还对RGBT-Tiny上的不同多目标跟踪(MOT)算法进行了评估,具体内容请参考补充材料。
在SAFit度量方面,作者对23种最新的检测算法进行了全面评估。请注意,这项工作专注于构建具有最佳评估指标的综合基准,未来的工作将讨论新的 Baseline 。
5 CONCLUSION
在本文中,作者构建了首个大规模的基准数据集(即RGBT-Tiny)针对RGBT-SOD问题。
RGBT-Tiny是一个极具挑战性的基准,包含了丰富的目标和多样的场景,涵盖了大范围的密度和光照变化。
RGBT-Tiny提供了配对的实例边界框标注和跟踪ID,以覆盖广泛的应用范围,包括RGBT融合、检测和跟踪。
此外,作者还提出了一种尺度自适应的适宜性度量(SAFit),该度量对于大目标和小目标均显示出高度的鲁棒性,能够提供合理的性能评估和最优化的训练过程。这些都是基于作者提出的RGBT-Tiny数据集。
参考
[1].Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines.