DenseTrack,利用视觉语言模型提升密度图个体识别能力 !

2024-08-19 16:12:18 浏览数 (1)

基于无人机的群体追踪在准确识别和监测空中视角下的物体时面临困难,这主要由于物体体积小且相互之间距离近,导致定位和追踪都变得复杂。为了应对这些挑战,作者提出了一个密度感知追踪(DenseTrack)框架。DenseTrack 利用人群计数来精确确定物体位置,结合视觉和运动线索以提高对小尺度物体的追踪效果。 它特别解决了跨帧运动的问题,以提高追踪的准确性和可靠性。DenseTrack 采用人群密度估计作为视频帧中精确物体定位的 Anchor 点,将这些估计与追踪网络中的运动和位置信息融合,其中运动偏移量作为关键的追踪线索。 此外,DenseTrack 利用视觉-语言模型的洞察力,提高区分小尺度物体的能力,将外观线索与运动线索相结合。该框架使用匈牙利算法确保跨帧个体的准确匹配。在 DroneCrowd 数据集上的演示显示,作者的方法表现出卓越的性能,证实了在无人机捕获的场景中的有效性。

I Introduction

在应对第一个挑战时,开发了各种基于计数的跟踪方法,以平衡无人机视角下个体的精确定位与外观信息的保留。例如,STNNet(Wang等人,2019年)利用密度图进行人群定位和运动偏移进行跟踪。尽管这种方法显著提高了定位精度,但它仍难以解决由于物体在空中视角下体积小、距离近而引起的位置移动问题。此外,基于多帧注意力的方法(Brockman等人,2017年)通过整合跨多帧的特征来提高跟踪效果。然而,它依赖于连续帧,在帧间间隔较大的场景中效果不佳。

应对第二个挑战涉及结合外观和运动线索的MOT方法,以利用它们的优点并减少错误。然而,在基于无人机的环境中进行跟踪具有独特的难度,特别是在小物体的检测方面。从无人机视角的密度图中提取个体的外观特征特别具有挑战性,并且与基于检测的方法相比效果较差,后者本质上是捕捉更丰富的细节,而密度图提供的信息有限。

在本文中,作者提出了密度感知跟踪(DenseTrack)框架,它通过结合运动和外观线索,推进了基于计数的定位框架。DenseTrack解决了两个关键任务:从密度图中提取详细的外观信息以实现精确的个体识别,并使用这些外观数据纠正运动差异。最初,DenseTrack使用视觉语言模型(VLM)从密度图中提取复杂的外观特征,确保对个体的准确描述。从而将提取的外观数据与运动和位置数据无缝集成,以解决运动不准确的问题,增强运动线索的准确性。这种策略性的集成有效地克服了无人机场景中物体定位的挑战,同时将运动和外观信息巧妙地融合到跟踪过程中。

总之,作者对该领域的贡献有三方面:

  • 作者引入了密度感知跟踪(DenseTrack)框架,这是一种在人群计数定位范例中协同结合运动和外观线索的新方法。这一策略有效地利用了这两种线索的优势,同时减少了它们的局限性。
  • 作者通过整合视觉语言模型,提高了在密度图内进行个体识别的流程。这一整合显著提高了密度图的描述能力,使得在拥挤场景中能够更细致、更准确地表示个体。
  • 作者使用DronaCrowd数据集展示了作者方法的优势性能,在人群跟踪领域超越了现有方法。

2. Related Work

人群计数对于有效的人群管理至关重要,近年来已经引起了广泛关注。它可以被广泛分为三类:基于检测的方法(Chen等人,2019年)、基于回归的方法和基于密度图的方法。尽管基于检测的方法在人群密集的场景中表现不佳,基于回归的方法在稀疏人群中常常无法准确定位个体,使得基于密度图的方法成为首选技术。这种方法已经证明优于传统方法,显示出卓越的效能。先前的解决方案,如多分支网络(Wang等人,2019年),旨在解决人群分布的多种尺度问题,但通常生成的密度图并不理想。空卷积的引入通过保留像素信息并减少参数数量,从而提升了性能,彻底改变了这一领域。

深度学习的演变进一步扩展并改进了主干网络的架构。卷积神经网络(CNNs)的战略发展以及将Transformer网络融入单领域方法越来越有效;近期创新甚至实现了对人群的精确定位。尽管取得了这些进步,但仅仅关注人群数量还不足以进行全面的人群管理。评估人群移动对于识别人群中的潜在风险同样重要。

多目标跟踪在计算机视觉中提出了重大挑战,涉及在视频序列中检测并持续跟踪多个目标。传统上,方法包括如主动轮廓、粒子滤波(Wang等人,2019年)以及各种关联技术。然而,近年来已经出现了向基于检测的跟踪范式的重大转变。这种方法使用边界框检测器来识别目标,并利用外观特征进行关联,但由于小型目标缺乏独特特征,这种方法常常难以准确检测。

图1. 定位与跟踪技术说明。上部比较了(a)基于检测的定位,它直接识别目标,与(b)基于计数的定位,它通过密度分析估计目标位置。下部突出了(c)基于运动的跟踪,其中预测基于运动模式,以及(d)基于外观的跟踪,它使用视觉特征的不准确性;颜色相同的点表示对同一个体的预测。

简单在线实时跟踪器(Becker等人,2017年)为MOT提供了一个有效的解决方案,具有快速更新频率和最小的处理需求。在SORT的基础上,DeepSort(Santaraman等人,2017年)融入了基于深度学习的关联指标,通过使用更复杂的数据关联技术显著提高了跟踪精度。此外,Zhang等人(Zhang等人,2017年)开发了ByteTracker,这是一种利用深度神经网络的先进跟踪算法。ByteTracker以其在挑战性环境中的卓越准确性和鲁棒性能而著称,成为复杂MOT任务的有力工具。

人群跟踪已经取得了显著进展,创新性发展正在 Reshape 这一领域。Kratz和Nishino(Kratz和Nishino,2017年)利用时空模型有效地跟踪人群中的个体。AdaPT(Becker等人,2017年)引入了一种实时算法,在密集环境中推导个体轨迹,从而增强了对人群动态的理解。近期方法如基于计数的跟踪(Zhou等人,2018年)整合了检测、计数和跟踪以利用互补数据,证明在实时人数统计应用中是有效的(Sundararaman等人,2018年)。此外,Sundararaman等人(Sundararaman等人,2018年)开发了拥挤人头数据集,它结合了 Head 检测器、粒子滤波器和重新识别模块,以在拥挤环境中高效跟踪多个个体。

3. Densestrack

Problem Formulation

这篇论文针对小型、密集排列的物体,提出了一种基于计数的无人机人群跟踪方法,整合了外观和运动线索以弥补各自的局限性。如图2所示,该框架包括三个阶段:定位、个体表示和目标关联与跟踪。输入内容为视频流中的所有帧,其中表示总帧数。输出包括视频流中每个个体的轨迹,表示检测到的总个体数。

定位阶段涉及将视频流中的所有帧顺序输入到人群计数网络(CN)中,以获得每帧图像的坐标列表,给定如下公式:

text{CL}_{i}=text{CN}(I_{i}),(0leq i<n). tag{1}

在个体表示(IR)阶段,将视频流中的所有帧以及每帧中个体的坐标列表输入。然后,利用密度图中的定位,从上一帧获得估计位置和每帧中个体的外观表示。公式定义如下:

在最后的目标关联与跟踪(OAT)阶段,个体的外观表示作为外观线索,而估计位置和坐标列表作为运动线索。这一阶段涉及跨不同帧匹配个体,最终导出个体轨迹如下:

Localization

定位是跟踪的基础。由于无人机高空俯视角度下,检测器在识别小物体方面的局限性,建立坚实的跟踪基础至关重要。因此,作者引入了人群计数网络定位来替代传统的检测网络。具体来说,作者将视频流中的所有帧逐帧输入,以获得它们对应的密度图。

然而,广泛使用的密度图普遍存在一个问题,即缺乏精确的个体定位,这阻碍了人群定位的准确性。

在为视频的每一帧获得密度图之后,密度图中的每个像素都表示一个个体存在的可能性。因此,在这个密度感知阶段,如果密度图上的一个点是局部最大值(LM),那么该点的坐标就被视为该帧中一个个体的坐标。

Individual Representation

在获取到每帧中个体的精确位置后,提取用于帧间关联的有效表征至关重要。为了融合外观和运动信息,采用同时提取外观特征和运动偏移量作为关联线索。

3.3.1. Appearance Representation

考虑到密度图在提供详细个体信息方面的固有局限性以及丰富外观特征在跟踪精度中的关键作用,作者继续获取帧中所有个体的外观表示。

为了无监督地提取个体表示,作者采用了视觉-语言预训练模型BLIP2(Kirch等人,2017年)。通过使用Cut方法,原始图像根据个体定位进行裁剪,提取表示每帧中个体的局部图像块。记为,其中表示第帧中出现的个体数量,然后使用这些个体来获取对应于每个个体的子图像:

在为每帧中的每个个体获取个体局部图像块之后,作者使用BLIP2的特征提取(BE)模块来获取每个个体的外观表示:

这里获得的表示是一个维度为的矩阵,这对于在后续帧中合并所有个体标识符来说并不方便。因此,作者将矩阵展平以得到维度为的。

3.3.2. Motion Representation

在运动表示阶段,准确确定密集小型目标场景中个体的运动偏移至关重要。作者使用密度图来定位框架内的个体 并收集这些位置上的相应运动信息。然而,密度图缺乏运动偏移 ,仅限于计数和定位。因此,提取运动信息是必要的,因为密度图缺少个体运动偏移。

受 (Hamilton et al., 2017) 的启发,作者利用运动和位置图(MPM)来预测个体的运动状态。具体来说,给定帧 和 ,作者生成 。在 MPM 中,个体 所在的每个像素点上的值 是根据该个体的运动偏移计算得出的,如下所示:

其中 是通过高斯滤波特别推导出来的,表示该点对应个体的可能性。

然后,将帧 和 输入跟踪网络(TN)以生成运动和位置图(MPM),使用以下公式:

其中 MPM 是一个形状为 的矩阵, 表示帧 的宽度, 表示帧 的高度。矩阵中的值表示描述运动偏移的向量 。

为了获得第 个个体在第 帧相对于第 帧的运动偏移,作者在 的相应位置检索相应的运动偏移 。利用运动偏移和坐标,作者可以计算第 个个体在第 帧中的估计位置 ,如下所示:

其中 和 分别表示存储在 中的水平和垂直坐标,作为检索存储在 中的运动偏移的索引。

Object Association and Tracking

本文聚焦于多目标跟踪(MOT),该领域涉及检测多个目标并为轨迹跟踪分配唯一标识。在获取每一帧中每个个体的位置后,任务转变为在连续帧之间关联目标。为了提高跟踪的准确性,作者整合了运动偏移量和外观特征以进行帧间关联。

具体来说,在外观特征关联阶段,如果第帧中的第个个体的外观与第帧中的第个个体的外观本质上相似,作者认为它们是对应的。受到(Sang等,2018年)成功的启发,作者采用扩散方法(DM)比较跨帧的外观表示,类似于图像检索。这个过程产生了相似性矩阵,其中表示在前一帧中检测到的个体数,表示在后续帧中检测到的个体数。

其中中的值表示如下:

其中表示第帧中的第个个体的外观与第帧中的第个个体的外观相似性得分,得分范围在0到1之间。

同时,为了确保每个个体在帧中估计的位置与其在帧中的实际位置紧密对齐,作者构建了一个矩阵。该矩阵表示了每个个体在帧中相对于帧中个体实际位置的估计位置:

其中, 表示第 帧中第 个个体的实际位置 与第 帧中第 个个体的预测位置 (在第 帧中估计)之间的欧氏距离:

其中 和 分别表示 沿 x 轴和 y 轴的坐标,同理, 和 的定义也是如此。

从前面的步骤中可以看出,相似性矩阵 和距离矩阵 都提供了衡量两帧中个体是否相同的可能性的方法。然而,如果仅依赖相似性矩阵,可能会忽略距离问题,可能导致将相同的 ID 分配给空间上相距较远的个体。相反,如果仅依赖距离矩阵进行匹配,由于高度相似的distance cues,个体簇内部可能会发生 ID 切换,这会损害跟踪结果。

因此,采用了运动和外观相结合的帧间关联方法,旨在通过解决分配问题的不同方面来补充这两项指标。最初,将距离矩阵 中的值重新缩放到 0 到 1 之间,得到转换后的距离矩阵,记为 。为了表述关联问题,采用加权求和的方法来整合这两个指标,如下所示:

在合并矩阵之前,将距离矩阵 乘以 以调整其影响。在匹配任务中, 中较小的值表示代表同一个体的可能性更高,而 中较大的值则表示代表不同个体的可能性更高。

在获得代价矩阵 后,作者采用匈牙利算法(HA)来利用这两种度量标准确定帧之间的最优匹配。这有助于建立帧与帧之间的关联,从而推理出视频中每一帧中每个个体的轨迹,记作 。详细的流程在算法1中说明。通过上述操作,获得了轨迹 ,它由每个ID在每一帧中出现的位置组成,完成了跟踪过程。

算法1 帧间关联跟踪算法

4. Experimental Results


作者通过广泛的实验来验证作者提出的方法的有效性。所有实验均在配备有NVIDIA Tesla V100 GPU的服务器上进行,并使用Python实现。作者对比了所提算法与现有技术的性能,并在多个标准数据集上评估了各项指标。以下章节详细介绍了实验设置、评估标准和结果分析。

Dataset and Metrics

作者的实验采用了DroneCrowd数据集(Zhou等人,2017年),该数据集包含了112个多样化场景的视频片段。数据集具有变化的光照条件(晴朗、多云或夜间),物体大小(直径15像素或以上)和密度(每帧平均物体数量在150以上或以下)。这些视频是用高清摄像机以1920 x 1080的分辨率和每秒25帧(FPS)捕获的,并为20,800个个体和480万个 Head 提供了轨迹标注。将这些片段划分为142个序列,每个序列300帧,其中82个序列用于训练,30个用于验证,30个用于测试。为了评估人群跟踪算法,作者使用时间平均精度(T-mAP)来衡量轨迹的准确性,并引入了阈值(T-AP@0.10、T-AP@0.15、T-AP@0.20)以及25像素的准确度阈值来验证跟踪段。这些指标在介绍DroneCrowd的论文中指定,专为精确跟踪评估而设计。

Implementation Details

作者使用PyTorch框架开发了自己的方法。为了高效训练FIDT模型(Paszke等人,2017年),作者采用了Adam优化器(Kingma和Ba,2014年)。训练参数包括批量大小为16和裁剪大小为256。为了便于操作,将20×20裁剪的头像图像直接输入到LAVIS接口1进行特征提取。作者通过为参数分配0.9的权重来融合外观和运动线索。整个训练过程在NVIDIA GeForce RTX 4090平台上进行。### 与现有技术的比较

表1展示了在DroneCrowd上的跟踪性能比较分析。STNNet(Zhou等人,2017年)仅依赖于基于运动的方法,其性能次优,因为它可能会错误识别近距离内的个体。相比之下,DenseTrack融合了运动和外观,缓解了这一问题。它的表现尤为出色,获得了最高的T-mAP分数39.44,在所有阈值下都表现出色。特别是在具有挑战性的环境中,DenseTrack在较低阈值下的强劲表现突显了在宽松条件下的有效性,而在较高阈值下的竞争力则展示了在不同跟踪场景中的可靠性。

Ablation Study

4.4.1. Ablation Study on Density Localization

表2展示了基于直接计数的人体定位与增强跟踪定位方法的比较。在仅考虑计数的情况下,STNNet(Wang等人,2019年)的表现优于其他方法,其平均绝对误差(MAE)为15.8,均方根误差(RMSE)为18.7。然而,当整合跟踪信息后,STNNet的误差显著增加,其MAE为59.2,RMSE为69.2。相比之下,尽管DenseTrack在单独计数时相较于STNNet显示出稍高的误差,其MAE为20.3,RMSE为21.4,但在调整跟踪后,它在定位准确性上有了显著提升,实现了MAE为19.2,RMSE为29.0。这突显了DenseTrack利用跟踪信息提高定位准确性的有效性,因此在增强跟踪的场景下,其性能优于STNNet。

4.4.2. Ablation Study on Various Factors Performance

为了评估每个组件对跟踪性能提升的贡献,作者展示了在省略某些步骤后跟踪效果的实验结果,具体见表3。

具体来说,第一行仅使用基于计数的定位和运动跟踪,导致T-mAP(2.90)相对较低,以及在不同阈值下的T-AP也较低(T-AP0.10: 3.45,T-AP0.15: 2.95,T-AP0.20: 2.29)。在第二行引入外观信息后,所有指标都显著提升,尤其是T-mAP提高至37.46,并且在

表2中,DropneCrowd上的检测性能;“Counting”栏下的列表示仅使用计数网络的定位误差,而“Tracking”栏下的列显示通过计数和跟踪网络精细化的误差。最佳结果以粗体突出显示。

图3. 不同条件下跟踪的说明。(a)在多云天气条件下稀疏的小目标。(b)在晴朗天气条件下密集的小目标,相同颜色代表同一个体。

在T-AP阈值上(T-AP0.10: 45.59,T-AP0.15: 37.80,T-AP0.20: 28.99)得到了显著改善。然而,当所有因素结合在一起时(第三行),作者观察到了最显著的性能提升。在这里,T-mAP达到了39.44,T-AP阈值达到峰值(T-AP0.10: 47.48,T-AP0.15: 39.88,T-AP0.20: 30.95)。这些结果强调了在DroneCrowd中,考虑外观信息并采用匹配算法对于实现最优跟踪性能的重要性。

4.4.3. Ablation Study on Visual Representation

表4展示了不同视觉-语言模型(VLMs)的追踪性能,显示了它们在提高追踪准确性方面的有效性。尽管所有方法都表现出显著的性能,但BLIP2(Li等人,2019年)作为表现最佳的模型,其T-mAP得分达到了39.44。这一结果强调了BLIP2相比于其他VLMs(如CLIP(Zhu等人,2019年)和BLIP(Li等人,2019年))在提升追踪性能方面的有效性。BLIP2在不同精确度阈值下的一致性优势突显了其在捕捉复杂视觉和语言线索以实现更准确追踪方面的鲁棒性和有效性。这项分析表明,BLIP2的架构融合了对性能提升有益的特征,使其成为在各种场景下追踪任务中的有力选择。

Qualitative Analysis

4.5.1. Analysis of Tracking Performance in Varied Conditions

图4。在不同策略下,针对第10、13和16帧的跟踪性能说明:(a)原始航拍图像,(b) GT 标注,(c)仅基于外观的跟踪,(d)仅基于运动的跟踪,以及(e)融合外观和运动的跟踪。插图放大了跟踪结果,展示了每种策略的性能。

这种性能展示了在DenseTrack中整合运动和外观线索的鲁棒性,允许进行精确跟踪,且在很大程度上不受场景复杂性的影响。该框架能在如此多样的条件下表现出色,凸显了其先进的设计和适用于各种空中应用的能力。

4.5.2. Analysis of Different Tracking Strategies

图4直观地比较了不同的追踪策略,展示了融合外观和运动信息的好处。仅使用外观的策略(见图4(d))最小化了长距离误差,但常常会错误识别邻近的目标。而融合方法(见图4(e))成功地将这些策略结合起来,有效地平衡了距离考量并最小化了邻近误差,从而实现了最优的追踪性能。

4.5.3. Analysis of Tracking Performance

图5提供了深刻的比较分析,揭示了作者的DenseTrack算法与两个著名的方法:STNNet(Wang等人,2019)和MPM(Kumar等人,2020)并置时的有效性。图中的每个快照揭示了这些方法中内在的定位挑战和跟踪差异的不同方面。观察STNNet的描述(参见图5(c)),明显的定位错误显现出来,强调了健壮定位技术在跟踪精度中的关键作用。相反,基于MPM的方法(参见图5(d))虽然有所改进,但仍然容易偶尔出现误检。相比之下,DenseTrack方法(参见图5(e))显著提高了定位准确性和跟踪精度。它能够在各种场景中准确识别并跟踪个体,这突显了它在解决复杂跟踪挑战中的有效性。

5. Conclusion and Discussion

在本工作中,作者提出了DenseTrack这一新型基于计数的跟踪方法,通过融合外观和运动线索,增强了基于无人机的人群监测。

作者构建了一个成本矩阵,该矩阵结合了考虑密度的外观相似性矩阵与跨帧运动距离矩阵,并应用匈牙利算法以实现鲁棒的跟踪结果。DenseTrack在拥挤的无人机监控环境中展现了具有竞争力的性能。

据作者所知,这是首次将外观和运动信息协同用于基于无人机的人群跟踪的实现。

参考

[1].DenseTrack: Drone-based Crowd Tracking via Density-aware Motion-appearance Synergy.

0 人点赞