作者研究了一个新颖且实际的问题:开放语料库多目标跟踪(OCMOT)。该问题将MOT扩展到定位、关联和识别既见(基础)类别和未见(新颖)类别的通用目标,但不需要类别文本列表作为提示。为了研究这个问题,首要任务是建立一个基准。在本研究中,作者构建了OCTrackB,这是一个大规模且全面的基准,为OCMOT问题提供了一个标准的评估平台。 与之前的数据库相比,OCTrackB具有更丰富且平衡的基础/新颖类别及其对应的样本,用于评估时的偏差较少。作者还提出了一种新的多粒度识别度量方法,以更好地评估OCMOT中的生成目标识别。 通过进行广泛的基准评估,作者报告并分析了各种最先进方法的结果,这些结果证明了OCMOT的合理性,以及OCTrackB的有用性和优势。
1 Introduction
多目标跟踪(MOT)涉及在视频中检测并关联感兴趣的目标,这是一个经典且基本的问题,在许多现实世界应用中都有体现,如视频监控、自动驾驶等。近年来,随着大量算法和数据集的出现,MOT受到了广泛关注。多年来,MOT主要集中在人类目标上,例如MOT15[7]、MOT20[8]、DanceTrack[9]等数据集。一些研究工作也关注交通场景,旨在跟踪车辆,如著名的KITTI[10]数据集。
在现实世界中,视频中的类别是多样的,远不止人类和车辆。TAO作为首项工作,构建了一个大规模基准来研究任何类别的目标跟踪,共计833个目标类别。同期,GMOT-40[12]构建了一个通用多目标跟踪基准,包含10个目标类别,但每帧中的目标更为密集。随着MOT任务中类别的增加,评估指标从仅关注目标定位和关联演变为还包括类别识别。提出了一种新的指标TETA(tracking-every-thing accuracy)[13]来从以上三个方面评估通用MOT。最近,开放世界MOT(OWMOT)[14]被提出,它使用“基础类别”的样本训练跟踪器,并在包含“新颖类别”目标的视频上测试它。跟踪器必须识别基础类别目标,并将所有其他未见类别标识为“新”。此外,开放词汇MOT(OVMOT)[15]不仅旨在区分新颖类别目标,还要对每个目标进行分类,这通常是通过预训练的多模态模型如CLIP[16]实现的。
毫无疑问,MOT从特定类别发展到通用类别,进而到开放世界/词汇设置的发展越来越实用。在最新的OVMOT中存在的一个问题是,在测试过程中,需要一个预定义的基础类别和新型类别的类别列表作为分类任务的文本提示,如图1(a)所示。然而,在现实应用中获取这个列表并不容易,特别是对于新型类别,这些类别之所以被称为新型,是因为它们是之前未知的。因此,在本研究中,作者提出了一个名为开放语料库多目标跟踪(OCMOT)的新问题,将目标识别任务视为一个生成问题,而不是OVMOT中的分类问题,如图1(b)所示,其中不再需要类别列表。
为了研究OCMOT,首要任务是建立一个基准。先前的工作OVTrack[15]直接使用TAO的验证和测试集,并通过保持与LVIS[17]重叠的类别进行数据选择,构建OVMOT评估数据集。这种简单的类别交集操作显著减少了类别数量和测试样本。在本研究中,作者构建了一个新的、全面的评估基准OCTrackB,遵循类别丰富、样本丰富和语义兼容的原则。与之前的数据集相比,OCTrackB提供了更多样化和平衡的基础/新型类别,并拥有丰富的视频评估资源,减少了偏见。
总之,本文的主要贡献包括:
作者提出了一个新问题——开放语料库多目标跟踪(OCMOT),它放宽了开放词汇跟踪中给定类别列表的限制。OCMOT进一步释放了MOT在开放场景实际应用中的潜力。
作者构建了OCTrackB,这是一个大规模且全面的基准,为OCMOT问题提供标准的评估平台。作者还提出了一种多粒度识别指标,以进一步提高性能评估。
作者为OCMOT开发了首个 Baseline 方法。在OCTrackB上,作者进行了基准评估实验,并报告了作者的 Baseline 方法与其他最先进比较方法的实验结果。实验结果证明了OCMOT问题的合理性以及OCTrackB的有用性和优势。
2 Related Work
多目标跟踪(MOT)。在MOT中占主导地位的方法是跟踪-检测框架[18],该方法首先在每一帧中识别目标,然后使用各种线索(如目标外观特征、2D运动特征[26; 27; 28; 29; 30]或3D运动特征将它们跨帧关联起来。一些方法通过利用图神经网络[37; 38]或 Transformer [5; 39; 6; 40]来学习不同帧目标之间的关联关系,从而提高跟踪性能。为了扩展MOT任务中的目标类别,提出了TAO基准[11],它处理具有长尾分布的不同目标类别的MOT。随后提出了几项后续工作来评估这个基准,包括AOA[41]、GTR[40]、TET[42]、QDTrack[20]等。尽管这些方法有效地提高了性能,但它们仅限于封闭集目标类别,即训练集和测试集中的目标类别重叠。这对于具有新类别的多样化开放世界场景是不合适的。与此不同,这项工作跟踪了在训练过程中出现或未出现的类别目标,并生成了它们的类别,这显著扩大了跟踪的实际应用范围。
开放世界MOT尚未得到广泛探索。一些现有的相关工作[43; 44]采用通用的检测器与跟踪器实现开放世界跟踪。这些方法仅关注场景中的显著目标,而不考虑特定的类别。最近的TAO-OW[45]进一步考虑了开放世界跟踪中分类的挑战,将所有目标划分为已知和未知类别。在这项工作中,通过跟踪已知和未知类别的目标实现了类别感知的开放世界跟踪。尽管这一进展在开放世界跟踪中向前迈进了一步,但在未知类别中识别特定目标类别方面仍有不足。此外,OVTrack[15]将开放词汇融入到跟踪任务中,作为OVMOT,提供了一种基于TAO数据集建立的方法和基准。尽管它更加实用,但测试阶段仍需要预定义的类别列表。与OVMOT任务不同,作者的OCMOT不需要预定义的类别名称,而是直接使用生成模型生成目标类别名称,从而克服了OVMOT问题的局限性并提高了泛化能力。
MOT基准。基准在推进MOT的发展方面起着关键作用。早期的数据集如PETS2009[46]主要关注行人跟踪,视频序列有限。《MOT挑战》[7; 8]引入了更拥挤的场景,显著推动了该领域的发展。为自动驾驶设计的KITTI[10]和BDD100K[47]专注于跟踪车辆和行人。专门的 数据集如DanceTrack[9]、SportsMOT[48]和AnimalTrack[49]处理特定场景,如舞蹈、体育和野生动物。UAVDT[50]和VisDrone[51]支持空中跟踪。尽管有了这些进步,许多基准的目标类别仍然有限。最近的视频数据集如GMOT-40[12]和YT-VIS[52]旨在解决特定任务,如一次性MOT和视频实例分割,但在支持广泛类别方面仍有不足。大规模数据集TAO[11]标注了833个类别,为研究长尾分布上的目标跟踪提供了更广阔的平台。基于TAO,OVTrack[15]构建了OVTAO评估数据集。由于当前流行的开放词汇相关任务通常使用LVIS[17]数据集进行基础/新颖类别划分,OVTrack也遵循这一设置。然而,OVTAO中的新颖类别仅占LVIS原始新颖类别的10%,大约30个类别。有限的类别阻碍了算法在各种开放词汇类别上性能的有效验证,使其不适用于提出的OCMOT问题。因此,迫切需要拥有丰富类别和丰富视频的基准来支持OCMOT。因此,作者提出了一个新的基准OCTrackB,以有效解决上述问题。
3 OCTrack Benchmark
在本节中,作者将介绍OCTrack基准测试。该基准测试旨在为目标跟踪领域提供一个全面的数据集,以评估和比较不同的跟踪算法。作者详细阐述了数据集的构建过程,并对其特性进行了分析,同时提供了用于评估跟踪性能的多样化指标。此外,作者还讨论了当前跟踪技术在OCTrack基准上的表现,并指出了未来研究的潜在方向。
Problem Formulation: Open-Corpus MOT
作者首先提供了OCMOT的问题表述。给定一个包含各种目标的视频序列,OCMOT旨在同时完成定位、关联和识别任务,从而为视频中的每个目标生成一个边界框 ,一个连续的ID编号(沿视频序列),以及一个类别。在训练过程中出现的标注目标类别定义为 ,即基础类别集。在测试阶段,作者旨在获得OCMOT的结果,即目标类别集 是一个开放语料库。显然,作者有 ,并将新类别集定义为 。注意,作者将类别识别任务视为生成任务,在测试期间无需将 的类别列表作为输入。理想情况下, 包含现实世界中的所有类别。在实践中,为了评估OCMOT,作者可以将 限制为一个大规模的同义词词典。
Principle of Benchmark Construction
为了构建OCMOT基准(OCTrackB),作者首先确立了以下原则:
P0:标准化原则。遵循LVIS提出的基类和新类划分模式;
P1:类别丰富性原则。基类/新类应多样化且平衡;
P2:样本丰富性原则。所有类别的评估视频/目标应充足;
P3:语义兼容性原则。目标识别的评价应具有兼容性。
第一个原则P0确保作者的数据集中的基类和新类划分与广泛使用的LVIS保持一致。这是因为先前的研究,例如许多开放词汇检测方法[53; 54; 55; 56; 57],以及开放词汇追踪器OVTrack都使用LVIS作为训练数据集。作为一个测试数据集,采用相同基类/新类划分的OCTrackB更便于评估在LVIS上训练的算法。P1和P2都保证了数据集的丰富性,旨在增加数据集中的目标类别和样本数量。这对于开放语料库追踪任务非常重要。最后一个原则P3旨在解决由两方面引起的语义模糊问题。第一个方面来自数据集标注。由于类别数量庞大,数据集中类别标注的粒度不一致,导致评价不准确。例如,某些目标的分类粒度仅到“鸟”,而其他目标则更具体,如“鹅”或“鸭”。这种标注上的不一致使得在评估期间难以比较算法之间的识别准确性。第二个方面来自OCMOT任务。与OVMOT中的分类头不同,所提出的OCMOT将识别视为一个生成性问题。这可能造成语义同义或从属关系。例如,“出租车”和“的士”通常是指同一事物,都是“汽车”的类型。因此,对于“出租车”的真实标签,将“的士”甚至“汽车”的预测结果视为错误是不恰当的。如图2(a)中的示例所示,作者将LVIS中的类别划分为多个层级,并开展多层级评估,以努力实现原则P3。遵循上述原则,作者构建了OCTrackB。
Dataset Collection and Annotation
通过研究近期视频数据集,作者选择了两个具有多种目标类别的大型数据集,即TAO[11]和LV-VIS[58],作为构建OCTrackB的基础。TAO是一个通用类别的目标跟踪数据集,总共有833个类别和2,907个视频。LV-VIS是一个大词汇量的视频实例分割数据集,包含1,196个类别和4,828个视频。之前的工作OVTrack[15]同样遵循P0,直接使用了TAO的验证集和测试集(来自BURST[59]的标注),并且只保留了与LVIS重叠的类别进行数据选择,形成了OVTrack测试数据集,即OVTAO验证集(OVTAO-val)和测试集(OVTAO-burst)。这种简单的类别交集操作显著减少了类别数量。在本研究中,作者考虑了TAO的优势,它提供了更长的视频,但类别数量有限(与LVIS重叠)。另一方面,LV-VIS数据集提供了更多的目标类别,能有效弥补TAO的不足,使其更适合处理OCMOT任务。具体来说,作者筛选了TAO的测试和验证集以及LV-VIS的训练和验证集,以选择符合原则P0的视频。为了满足P1,作者使用贪心算法,旨在最小化视频总数的同时,尽可能确保每个类别至少包含两个视频,从而确保类别多样性和平衡。这导致了涵盖892个类别(也包含在LVIS中)的903个视频的选择。为了满足P2,作者再次使用贪心算法,旨在为每个类别分配尽可能多的轨迹,同时保持视频总数不变。这进一步产生了包含4,766个轨迹的732个视频。总的来说,作者收集了1,635个视频,其中496个包含新类别目标,1,600个包含基础类别。
Dataset Statistics and Comparison
作者接着展示了OCTrackB的数据统计,并将其与现有的两个OVTrack数据集进行了比较,即OVTAO-val [15]和OVTAO-burst [59]。OCTrackB具有以下典型优势:
多样且平衡的目标类别。OCTrackB总共包含892个可用的类别,由653个基础类别和239个新颖类别组成。作者在图2(a)中展示了OCTrackB中的一些示例类别,这些类别涵盖了现实世界应用的各个方面,例如各类交通工具、动物和家用物品等。值得注意的是,遵循作者基本数据集TAO和LV-VIS的原始类别标注,OCTrackB涉及多粒度类别。例如,细粒度类别“牧羊犬”及其一般类别“狗”同时出现在OCTrackB的类别列表中。作者利用这种从属关系来设计下一节中的新评估指标。
如图2(b)所示,OCTrackB包含了653个基础类别和239个新颖类别,分别占原始LVIS基础类别的75.5%和新颖类别的70.9%,有效地确保了类别的多样性。对于先前数据集,OVTAO-val和OVTAO-burst分别包含原始LVIS基础类别的30.1%和37.4%。关于新颖类别,这一比例仅为大约10%(2.9%/2.7%对比28.0%)。各种目标类别使得OCTrackB在评估开放语料库目标跟踪性能方面更具全面性。
接下来,作者考虑数据集的类别平衡性。如图3所示,作者计算了不同单元(目标框、目标轨迹、视频)和类别集的标准化熵。具体来说,对于数据集中的N个类别,作者计算香农熵为,其中表示单元属于类别i的概率,最大熵为。然后作者得到标准化熵,这可以反映数据集中的类别平衡性。作者可以看到,所提出的OCTrackB的类别平衡性高于OVTAO-val和OVTAO-burst。作者知道,在现实世界中,目标类别的分布是长尾而非平衡的。然而,作为一个评估基准,作者试图保持类别平衡,以确保评估不受大规模但简单的类别主导。
基础类别和新颖类别都具有丰富的样本。如图4所示,作者展示了OVTAO-val、OVTAO-burst和OCTrackB数据集中的目标数量、轨迹和视频数量。这些统计数据通过基础类别和新颖类别进行划分。作者可以看到,对于基础类别,OCTrackB中的目标框、轨迹和视频数量超过了OVTAO-val和OVTAO-burst。此外,在新颖类别方面,作者可以看到OCTrackB的数据量显著大于OVTAO-val和OVTAO-burst,增幅在7.7到11.2倍之间。
从比较中,作者可以看出,所提出的OCTrackB更符合上述原则P1和P2。作者进一步提供了OCTrackB的更多统计数据,以展示其数据分布和特点。
Evaluation Metrics
遵循[15]的研究,作者采用了开放类别跟踪评价指标,即tracking-every-thing准确率(TETA)[13]进行评估。TETA由三部分组成,即目标定位、关联和分类的准确性。首先,定位准确率(LocA)通过将GT边界框与预测边界框进行匹配来计算,不考虑类别,公式为 。其次,关联准确率(AssocA)通过将关联的GT实例的身份与预测关联进行匹配来确定,公式为 。最后,分类准确率(ClsA)通过将所有正确定位的实例与相应的GT类别进行比较来计算,公式为 。TETA分数是上述三个分数的平均值,计算为 。
在先前的开放类别跟踪任务[45, 15]中,目标识别总是被视为一个分类问题,使用上述ClsA指标。作者将识别视为一个生成任务,可能会生成多个标签。如图5所示,首先使用CLIP[16]对预测输出(将多个生成的目标类别用逗号连接成一个单独的提示)和LVIS中的每个基础/新颖类别进行编码。接着,作者计算这些编码特征之间的相似性,以选择高相似性类别标签,即匹配类别(LVIS中的一个类别名称),该标签可用于计算ClsA。需要注意的是,基础类别和新颖类别仅用于结果评估,这与OVMOT使用它们生成预测结果的方式不同。
如第3.2节的P3所述,开放语料库跟踪可能引入语义歧义问题。为了解决这个问题,作者设计了一个多粒度识别准确率(mgReA)。具体来说,考虑到生成的词汇多样性,作者根据WordNet[60]将LVIS中的类别作为一个层次结构进行聚合。如图5所示,在计算mgReA时,如果 GT 类别标签属于这个聚合的多粒度类别层次中的任何类别,那么它就被认为是扩展的成功识别。一个简单的例子是,对于 GT 标签“牧羊犬”,作者将其扩展到“狗”。对于“狗”的匹配类别(预测),ClsA会判断它为假结果,但mgReA将其视为真。这个指标提供了更直观和兼容的评估,因为作者不需要在许多情况下进行非常细粒度的分类。基于mgReA,作者定义了一个新的综合评价指标,称为跟踪与重新识别准确率(TRETA),用于解决OCMOT问题,计算公式为 。
4 A Baseline Method: OCTracker
1) 定位: 如图6所示,与大多数基于追踪检测的MOT方法类似,作者首先需要获取每帧中的目标边界框。由于作者的关注点是开放语料库目标追踪,作者旨在定位通用类别的目标。作者采用知名检测器Deformable DETR [61]作为定位头的基本网络结构。Deformable DETR使用匈牙利匹配将预测的检测结果与真实情况映射,并通过类别分类损失和边界框回归损失对应该的框进行对齐。在作者的框架中,作者不考虑定位头中的目标类别,旨在训练一个类别无关的目标检测器。因此,作者将[61]中的类别分类损失替换为二元交叉熵损失,即估计一个区域候选是否是感兴趣的目标。
2) 识别: 识别头用于生成目标的类别名称。它主要由一个生成式语言模型组成,作者使用FlanT5-base [62]并使用其预训练权重进行初始化。通过一个投影层,将从Deformable DETR获得的候选目标的视觉特征映射到生成模型的输入空间,然后由由自注意力层和前馈神经网络组成的生成编码器和解码器处理。编码器的输出通过交叉注意力层与解码器交互。然后解码器的输出通过softmax层预测上一个词的对应预测,用作训练下一个词预测的输入。生成模型按照[63]中的方式和损失函数进行训练,使用VG [64]和GRIT [65]的图像-文本对作为训练数据。语言模型的束大小是可控的。作者将其设置为2,意味着作者为每个目标生成两个类别名词。
3) 关联: 作为追踪任务,一个关键步骤是沿着视频关联目标。为此,作者考虑一个两阶段的训练策略来训练关联的目标相似性学习模型。由于没有大规模带有追踪标注的通用目标视频数据集[15],作者只能使用图像数据集或原始视频进行训练。第一阶段是学习静态图像的关联模型。遵循[15],作者应用数据幻觉策略生成用于训练的成对图像。具体来说,对于LVIS [17]中的基本类别图像,作者使用扩散模型生成具有相同目标类别但风格不同的伴随图像。然后,通过每对图像之间的对比学习实现相似性学习,其中相同的目标作为正样本,其他目标和生成的目标作为负样本。第二阶段是学习原始视频的关联模型。遵循[66],作者采用自监督策略来学习TAO训练集中原始视频中的目标相似性。具体而言,如图6所示,给定一个帧中的参考目标,作者首先寻找它在另一个帧中最相似的目标。然后从这个目标中,原始帧中最相似的目标应该是参考目标。基于这种目标自相似性原理,作者使用自监督损失[66]来学习目标相似性。
5 Experimental Results
Comparison Methods
作为一种新问题,目前还没有能够直接处理OCMOT(开放词汇多目标跟踪)的方法。作者尽可能包含多种方法,并对它们在提出的OCTrackB数据集上进行了必要的修改以进行比较。
首先,作者选择了两种强大的多目标跟踪算法,即QDTrack [20]和TETer [67]。传统的多目标跟踪方法无法处理OCTrack中的目标识别任务,因此作者采用封闭集训练方法,在LVIS [17]和TAO [11]训练集中同时对这两种算法进行基类和新类训练,并在OCTrackB上评估它们的性能。其次,在实验中作者纳入了唯一的公开开放词汇多目标跟踪算法OVTrack [15],在测试时额外提供基类和新类列表,以符合其设置。同时,为了评估更多相关方法,作者进一步采用了方法组合的方式。具体来说,作者选择了一种开放词汇检测(OVD)算法来进行目标定位和识别(分类),并结合一种目标跟踪方法进行关联,以实现OCMOT。作者选择了三种最先进的OVD算法,即VLDet [55]、CoDet [54]、MM-OVOD [53],以及三种跟踪方法,包括基于外观的跟踪方法OVTrack [15]中的DiffuTrack、ByteTrack [1]中的基于运动的跟踪和OC-SORT [2]。需要注意的是,这些方法在测试时同样需要基类和新类列表。最后,作者采用了一种名为GenerateU [63]的开放式生成目标检测方法作为检测器,并与上述跟踪模块结合,用于OCTrack任务。这一系列方法严格遵循OCTrack的设置,在测试时没有类列表。此外,作者还包含了作者提出的基础方法OCTracker以进行比较。
Benchmark Results
现有方法比较。 如表1所示,作者可以看到,经典的MOT算法QDTrack [20]和TETer [67]在定位和关联任务上提供了满意的性能,因为这些方法专门为此类任务而设计,并且它们已经在基类和新型类数据上进行训练。然而,作者可以看到目标识别结果,即CIsA分数,非常差。这是因为这些方法无法处理OCTrackB中多达892个类别的多样化长尾分类问题。此外,CIsA指标只考虑了top-1分类准确率,但这些类别是细粒度的。从这个角度来看,所提出的识别分数mgReA更为合理。然后作者可以看到,开放词汇跟踪方法OVTrack [15]在所有竞争者中提供了相对较好的结果。然而,它在训练期间使用类别列表作为输入,开放类型设置为OV。在相同的OV设置下,作者选择了三种更近期的OV检测方法VLDet [55]、CoDet [54]和MM-OVOD [53],并结合三种经典跟踪策略进行关联。其中,DiffuTrack使用基于数据幻觉策略的扩散模型[15]来学习目标相似性进行关联。ByteTrack [1]应用了检测选择策略并使用运动特征进行关联。OC-SORT [2]在使用运动特征时进一步考虑了遮挡。对于上述基于组合的方法,作者发现它们的整体性能与OVTrack相当。在综合TETA分数方面,结合了DiffuTrack的CoDet [54]和MM-OVOD [53]在基类上超过了OVTrack。VLDet [55]和结合了DiffuTrack的CoDet [54]在新类上超过了OVTrack。但所有差距都不是很大。值得注意的是,如上结果显示,所提出的OCTrackB _也可用于开放词汇MOT问题_。然而,在这项工作中,_作者更感兴趣的是所提出的OCMOT问题_,它更实用且更有前景。
接下来,作者介绍在OC设置下的结果,其中作者使用单独的检测器遵循OC设置,即GenerateU [63]结合上述三种跟踪策略来实现OCMOT。作者报告了它们的结果,并在表1底部报告了所提出的OCTracker的结果。作者可以看到,在目标识别任务方面(使用ClsA指标),OCTracker与其他方法提供了相当的结果,因为用于目标识别(类别生成)的底层语言模型相似。OCTracker在基类和新类上的关联结果(AssocA)也更好,这证明了OCTracker中关联 Head 的优势。
新指标的结果。 然后作者讨论使用不同识别指标的结果,即先前的ClsA和所提出的mgReA。首先作者可以看到,在大多数情况下,mgReA提供了与ClsA一致的评估,即更好的ClsA导致更好的mgReA。这验证了mgReA的可用性,它能正确反映目标识别性能。同时,作者也可以看到两个mgReA分数之间的差距通常大于两个ClsA分数之间的差距。这意味着mgReA能更好地反映不同方法之间的差距。特别是在计算TETA分数时,如果识别分数(使用ClsA)相似,TETA将受到其他两个指标(LocA和AssocA)的主导。这种方式,所提出的TRETA使用更具辨别力的mgReA分数进行更好的评估。一个特殊情况显示在前两行,对于新类集,QDTrack [20]和TETer [67]在使用ClsA时提供了相同的结果(0.1 对 0.1),没有辨别力。但mgReA指标(7.6 对 2.5)能有效地评估它们的性能。
In-depth Analysis
讨论与见解。从表1中,作者可以观察到所有方法的性能普遍较差,特别是对于识别任务。这反映了OCTrackB的挑战性,同时也反映了OCMOT问题,这些问题还有很大的改进空间。作者进一步比较了OVMOT和OCMOT不同设置生成的结果,以OVTrack和OCTracker为例。作者还发现,无论是在基类还是新类上,使用ClsA或mgReA,OCTracker的目标识别性能始终低于OVTrack。这是合理的,因为OCTracker不再需要OVTrack中使用的(基类和新类)列表。尽管总体而言,基于OV的方法性能优于基于OC的方法,但两者之间的性能差距并不大。这表明作者提出的更实用的OCMOT任务非常有前景。
数据集的全面性。如上所述,OVTAO和作者提出的OCTrackB都使用了TAO数据集中的视频。作者选择了OVTAO和OCTrackB中重叠的视频,并应用了公共的OVTrack [15] 方法进行比较。如表2所示,作者发现尽管OCTrackB中包含的与OVTAO-val或OVTAO-burst重叠的视频大约只占原始OVTAO的41%,但实验结果显示差异可以忽略不计。与原始OVTAO数据集相比,基类和新类的评估结果在TETA、TRETA上的差异不超过0.6%。这一比较表明,OCTrackB中包含的OVTAO数据集部分在代表性上非常高,包含了原始OVTAO数据集的数据分布多样性。除了这些视频,OCTrackB还包括了来自LV-VIS的数据。按照原则 P1 和 P2,在类别丰富度和样本数量上都有显著扩展,使OCTrackB对OCMOT而言非常有效和全面。
可视化分析。图7展示了OCTracker的一些可视化结果,其中相同颜色的边界框表示相同的轨迹ID,带有黑色背景的文本框显示生成的类别名称(预测),而带有绿色背景的文本框显示使用CLIP进行评估的标签,带有棕色背景的文本框表示数据集中的真实标签。作者可以看到,OCTracker对目标类别有着丰富的理解。例如,在第一行中,OCTracker不仅能将目标识别为“孩子”,还能将其识别为“女孩”,从而提供了对目标的更全面描述。重要的是,这是在没有任何预先指定的类别限制的情况下实现的。在第二行结果中,生成的输出包括预测“灰熊”,比真实标签“熊”更为具体。第三行展示了第3.5节提出的mgReA的有效性。作者可以观察到,在跟踪“狗”的一个特定子类“斑点狗”时,OCTracker有效地描述了目标特征,如“黑白狗”。它还可以预测其超类别“狗”并在某些帧中准确识别子类“斑点狗”。当目标被识别为“狗”时,多粒度度量mgReA回溯到从真实标签“斑点狗”扩展的标签“狗”,有效地解决了生成结果与GT标签之间的不匹配。
6 Conclusion
本文通过深入研究和分析,探讨了人工智能技术在XX领域的应用。
作者首先概述了当前的主要挑战,并详细介绍了作者提出的方法和算法。实验结果表明,作者的方法在多个指标上均取得了显著成效。
在结论部分,作者将总结研究的关键发现,讨论可能的未来研究方向,以及这项工作对XX领域发展的潜在影响。
参考
[1].OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking.