A Universal Event-Based Plug-In Module for Visual Object Tracking in Degraded Conditions
一种通用的基于事件的插件模块,用于降级条件下的视觉目标跟踪
Jiqing Zhang, Bo Dong, Yingkai Fu, Yuanchen Wang, Xiaopeng Wei, Baocai Yin, Xin Yang
摘要
基于RGB/灰度图像帧的大多数现有跟踪器可能因传统传感器在某些挑战性场景下的不可靠性(例如,运动模糊和高动态范围)而崩溃。事件基相机作为生物启发传感器,以高时间分辨率和高动态范围编码亮度变化,从而为在降级条件下的跟踪提供了相当大的潜力。然而,事件缺乏RGB/灰度图像帧提供的细粒度纹理线索。这种互补性鼓励我们将来自帧域和事件域的视觉线索融合起来,以在各种具有挑战性的条件下进行稳健的目标跟踪。在本文中,我们提出了一种新颖的事件特征提取器,通过增强不同时刻状态之间的交互和区分变化来捕获事件基数据中的时空特征和运动线索。此外,我们开发了一种有效的特征整合器,通过平衡它们的贡献来适应性地融合两个域的优势。我们提出的模块作为插件,可以轻松地应用于现成的基于帧的跟踪器。我们在三个数据集上广泛验证了通过我们的方法扩展的八种跟踪器的有效性:EED、VisEvent和我们收集的基于帧-事件的数据集FE141。实验结果还表明,基于事件的数据是跟踪的强大线索。
关键词
事件基相机,视觉目标跟踪,多模态融合,插件模块
1 引言
视觉目标跟踪是计算机视觉中的一个基础但具有挑战性的主题,其目标是在视频序列的每一帧中预测目标状态。基于卷积神经网络,使用传统RGB相机的目标跟踪近年来取得了显著进展。然而,由于传统传感器的帧率和动态范围限制,当前基于帧的跟踪器在某些降级场景中常常不堪重负,例如快速运动和高动态范围。相比之下,事件基相机是生物启发视觉传感器,其工作原理与常规相机有根本的不同。事件相机不是以固定速率捕获帧,而是异步测量亮度变化,并输出代表位置、时间戳和亮度变化符号的事件流。与传统相机相比,事件基相机提供了吸引人的优势:高时间分辨率(微秒级)、高动态范围(140dB vs. 60dB)和低功耗。因此,编码的事件可以为降级条件下的目标跟踪提供丰富的时间线索。然而,事件基相机无法像传统相机那样测量细粒度的纹理信息,这对于区分目标和背景至关重要。因此,两种传感器是互补的,如图1所示。这种独特的互补性促使我们将事件基信息引入现有的基于帧的跟踪器,以利用帧域和事件域的优势,提高在降级条件下的跟踪性能。
为了实现我们的目的,需要解决两个挑战:(i)从事件流中提取空间和时间线索是一个挑战。由于事件的异步格式与传统帧大不相同,最近的工作将事件聚合成帧,然后使用基于CNN的方法来处理它们。然而,这些方法通常忽略了在不同时间发生的事件之间的相关性,这对于时空预测至关重要。(ii)另一个挑战是有效融合事件和传统帧域,无论场景的多样性如何。尽管多模态跟踪器(即RGB-热成像和RGB-深度)显示出有希望的潜力,但事件的独特属性阻止了这些方法的直接应用,无法提供有效的解决方案。
在本文中,我们分别提出了事件特征提取器和多模态整合器来解决上述两个挑战。具体来说,(i)我们采用了一种简单但有效的事件累积方法来离散化异步事件的时间域。每个离散化的时间切片可以累积成一个强度帧。基于这些聚合的事件帧,我们进一步设计了一种新颖的时空特征提取器,称为GM-LSTM,以充分利用事件的运动线索来提取全局时空特征。所提出的GM-LSTM包括一个自注意力方案,用于捕获具有长期空间依赖性的时序特征,以及一个运动感知模块,用于增强不同时刻事件的表示,从而提高跟踪器的置信度。(ii)我们设计了一个跨域调制和选择模块(CDMS),以有效和适应性的方式结合事件域和帧域的优势。通过精心设计的特征增强模块来加强有效性,该模块估计来自一个域的注意力,有助于另一个域的特征表达。适应性是通过特别设计的比例方案来维持的,以平衡两个域的贡献,从而确定哪个线索对目标位置是可靠的。
缺乏训练数据也是使用事件和帧域进行跟踪的主要瓶颈。因此,我们构建了一个大规模的多模态单目标跟踪数据集FE141,包含141个序列,总时长为2.0小时。FE141在帧域和事件域都提供了地面真实注释。注释频率高达240 Hz。为确保多样性,我们从差异显著的真实世界场景中捕获视频,这些场景在对象类别、位置、形状、运动和照明条件方面都有很大的差异。为了证明我们提出的方法的有效性,我们将八种最先进的基于帧的跟踪器扩展为多模态跟踪器。以图2为例,在我们FE141数据集上的实验结果表明,我们提出的模块显著提高了现有基于帧的跟踪器的性能。这项工作的主要贡献有四个方面。
- 我们引入了一种新颖的基于事件的提取器,用于捕获具有运动线索的时空特征,并设计了一个设计良好的跨域特征整合器,以有效和适应性地融合来自帧域和事件域的视觉线索。
- 我们提出的方法可以作为插件模块轻松扩展到其他基于帧的跟踪器,显著提升它们的表现。
- 我们贡献了一个大规模的帧-事件基础数据集,用于单目标跟踪。该数据集在类别、位置、形状和降级条件下提供了广泛的多样性。
- 在不同数据集上的实验结果证明了我们方法的有效性。
这项工作的初步版本在ICCV 2021上发表,称为FENet。与初步版本相比,我们在这项工作中进行了几项扩展。(i)我们提出了一种名为GM-LSTM的新型基于事件的提取器,可以有效地从事件基数据中提取全局空间和丰富的时序特征及运动线索;(ii)我们进行了广泛的实验,并验证了我们提出的方法可以作为插件模块轻松扩展到其他基于帧的跟踪器,并显著提升它们的表现;(iii)我们收集了33个额外的序列,包含了对事件域特别具有挑战性的场景,如严重的相机运动、频闪光、静态对象等;(iv)我们进行了额外的实验和更多的分析,包括在额外的基准VisEvent上比较最先进的跟踪器、比较不同的融合策略、计算成本、局限性和未来研究方向。
2 相关工作
2.1 单域目标跟踪
2.1.1 基于帧的目标跟踪
大多数当前的跟踪器利用传统的基于帧的传感器,其中基于孪生网络的方法已经获得了显著的流行。作为开创性的工作之一,SiamFC证明了基于孪生全卷积深度网络有能力更有效地使用可用数据进行跟踪任务。最近,为了增强跟踪流程的每个部分,已经进行了几项改进,例如使用更深更宽的主干网络,引入注意力和transformer机制,探索无监督训练,利用模型更新机制,提出在线更新方案等。
2.1.2 基于事件的目标跟踪
与基于帧的目标跟踪方法相比,只有少数尝试使用基于事件的相机进行目标跟踪。基于事件的跟踪通常可以分为基于聚类的和基于学习的跟踪器。Piatkowska等人将基于高斯混合模型的聚类扩展到在高遮挡情况下定位多个人。Camuñas-Mesa等人提出了一种基于传入事件和动态聚类列表之间距离标准的聚类跟踪算法。Barranco等人使用异步事件重新定义了众所周知的均值漂移聚类算法,用于多目标跟踪。然而,这些方法依赖于强假设或假设受限条件。基于深度学习的强大表征能力,Chen等人增强了事件表征方法Time-Surface,并提出了用于基于事件的单目标跟踪的跟踪检测网络。Zhang等人引入了尖峰神经网络来提取异步事件的时序特征,以提高基于事件的跟踪性能。Zhu等人构建了一种端到端的学习基础范式,直接消耗事件云。
2.2 多域目标跟踪
利用多个传感器的优势,在具有挑战性的场景中进行稳健跟踪是一种直观的策略。热图像对照明变化不敏感,因此被引入作为补充域,以改善在雨雾等极端条件下的性能。例如,基于相关性的关注,Zhang等人收集了一个大规模基准,并为可见-热成像无人机跟踪设计了一个分层多模态融合跟踪器。另一系列工作利用深度和传统可见传感器帮助解决目标跟踪中的遮挡问题。深度线索比传统帧提供更好的对象到背景分离,并简化了关于遮挡的推理。例如,Lukezic等人验证了基线RGB跟踪器的性能可以通过直接添加深度信息来提高。事件基相机的异步输出使帧域和事件域的组合与上述多域跟踪器相比成为一个独特的挑战。例如,Yang等人使用卷积神经网络和尖峰神经网络分别提取帧和事件的特征。Huang等人融合了低帧率的传统帧序列及其相应的高频事件,用于跟踪高速移动的对象。由于数据集的限制,这些方法在有限的场景内验证了帧和事件融合的有效性。
2.3 使用LSTM进行时空预测
Sutskever等人首次提出了一个端到端的多层LSTM编码器-解码器框架,用于机器翻译,其输入数据是一维的。之后,Srivastava等人将LSTM引入到视频表示领域。然而,他们的方法只能学习视频序列的时间连贯性。为了同时捕获视频帧的空间和时间特征,Shi等人提出了卷积LSTM(ConvLSTM)网络,用于降水预测。基于这项工作,已经提出了一些变体,在时空预测方面取得了令人印象深刻的结果。例如,Wang等人设计了一个时空LSTM单元,可以在统一的存储单元中对空间和时间表示进行建模,并在层间垂直和状态间水平传递记忆。TrajGRU利用卷积层学习特定应用的降水预测的感知区域偏移。Wu等人专注于模拟运动变化,以统一的方式学习显式瞬时变化并记住运动趋势。然而,由于感知领域有限,这些方法缺乏捕获长期空间依赖性的能力。此外,先前输出状态和当前输入状态之间的简单交互忽略了两个状态之间的关键相关性,这对于时空预测至关重要。在本文中,我们将自注意力机制引入ConvLSTM,以有效提取全局空间特征和时间特征。此外,我们通过利用运动信息加强不同时刻状态之间的交互,并增强相应特征。
3 方法
作为补充模态,基于事件的信息可以有效地提升传统基于帧的跟踪器的输出,并显著提高跟踪性能。然而,将事件的好处纳入现有的基于帧的跟踪器需要解决两个挑战:(i)基于事件的相机报告异步每个像素的亮度变化,同时提取空间和时间信息是具有挑战性的;(ii)简单地组合事件和帧域会忽略其中一个域没有提供有意义信息的情况。在这项工作中,我们提出了事件特征提取器(EFE;第3.2节)和跨域调制和选择模块(CDMS;第3.3节),分别解决上述两个挑战。如图3所示,整体架构有两个分支:参考分支(顶部)和测试分支(底部)。参考和测试分支在孪生样式中共享权重。每个分支有三个组成部分,即:帧特征提取器(FFE)、EFE和CDMS。特别是,FFE以传统帧作为输入来提取纹理特征;EFE从连续传统帧之间捕获的事件中提取空间和时间信息。CDMS负责整合两个域的优势,并建立融合特征(即和)。然后,这些融合的特征被输入到基线跟踪器的分类器和回归器中,以在测试帧上定位目标。为了便于理解,我们接下来通过将基于帧的跟踪器PrDiMP扩展为多模态跟踪器的示例来详细说明我们提出的方法。在PrDiMP中,采用预训练的ResNet18作为FFE。第四和第五块的特征分别用作低级和高级帧特征(即和)。
3.1 事件表示
基于事件的相机异步捕获每个像素的日志强度变化。当发生以下情况时,将触发事件:
其中C表示对比度阈值;p是极性,表示亮度变化的符号, 1和-1分别表示正事件和负事件。Δt是自位置的最后一个事件以来的时间。在给定的时间间隔内,将触发一组事件:
由于异步事件格式与传统基于帧的相机捕获的帧大不相同,通常将事件集转换为类似网格的表示,以便使用事件与卷积神经网络一起使用。在本文中,我们采用了一种简单但有效的事件集和基于网格的张量之间的映射。具体来说,受到Zhu等人的启发,我们首先将两个相邻帧之间捕获的事件聚合到一个n-bin体素网格中,以离散化时间维度。然后,每个3D离散化切片累积成一个2D帧,其中帧中的像素记录当前切片内像素位置内最新时间戳的事件的极性。最后,将n个生成的帧缩放255以进行进一步处理。给定一组事件,,时间戳在第i个bin的时间范围内,位于第i个聚合帧上的(x, y)处的像素可以定义如下:
对于所有, 其中是帧域中第j帧的时间戳;δ是狄拉克δ函数;B是时间域中的bin大小,定义为:
所提出的方法利用最新时间戳捕获每个时间切片内最新的运动线索。我们的实验结果表明,我们使用的事件处理方法优于其他常用方法(见表5)。
3.2 事件特征提取器(EFE)
EFE模块的目的是提取事件数据的全局空间和时间特征及运动线索。如图3所示,EFE的关键组成部分是GM-LSTM,这是ConvLSTM的一个变体。给定一组事件,我们首先根据方程3将它们分成多个bin。GM-LSTM然后处理每个bin,同时保持空间维度一致。在推理过程中,每个隐藏状态和细胞状态都以序列方式传播到下一个GM-LSTM。通过融合细胞状态张量并使用另外两个卷积层,我们提取不同级别的事件特征El和Eh,包括空间和时间信息。
ConvLSTM通过用卷积层替换线性操作来同时捕获传统帧的时间和空间依赖性,从而取得了令人印象深刻的结果。然而,对于累积的事件帧,由于稀疏性和缺乏纹理信息,提取局部特征很困难。因此,建立全局关系对于使用事件信息至关重要。由于卷积层的感受野有限,ConvLSTM往往难以捕获长期空间依赖性。此外,在ConvLSTM中,当前输入状态和先前的隐藏输出状态通过连接操作进行交互。这种简单的交互忽略了两个状态之间的区别,每个状态都包含不同时刻的关键目标运动、外观、场景和关联线索,这对于时空预测至关重要。为了解决上述限制,我们用所提出的全局空间依赖性提取器(GSDE)和运动感知模块(MAM)替换了ConvLSTM中的连接操作和卷积层,以捕获用于跟踪的时空信息和运动线索。
我们的GM-LSTM可以表述如下,
其中GSDE和MAM分别表示GSDE和MAM模块;和分别表示细胞激活状态、隐藏输出状态和输入事件状态;D是降低计算量的下采样操作;FGM是当前输入状态和先前隐藏输出状态的聚合特征;S表示将FGM分割成通道维度上等大小的块(即和);和分别是时间t的输入门、遗忘门和输出门;σ是Sigmoid函数;表示逐元素乘法。
我们接下来描述所提出的GM-LSTM的两个关键组成部分(即GSDE和MAM)的架构细节。
3.2.1 全局空间依赖性提取器(GSDE)
鉴于自注意力机制在建模全局依赖性方面,
其中是一个重塑函数,目标形状为;,;表示一个softmax函数。类似地,对于有:
其中,;我们认为当前时间步的预测可以从过去相关特征中受益,因此我们设置。通过这样做,可以在堆叠的LSTM单元层的传播过程中捕获全局空间依赖性。
3.2.2 运动感知模块(MAM)
视觉跟踪依赖于运动和时间上下文,这激发了我们利用先前输出状态和当前输入状态之间的区分信息来提高我们跟踪器的置信度。如图4b所示,我们首先对和执行减法操作,以获取不同状态之间的最具有区分性的线索,包括目标运动、外观、场景。然后,我们利用区分信息进行空间注意力方案,引导和关注信息丰富的部分,并预测更具区分性的状态和。最后,我们连接和,并利用卷积层生成聚合特征 FGM。首先减法然后连接的操作确保了在关注区分性线索的同时保留先前和当前状态信息。正式地,MAM模块定义为:
其中表示卷积层;和分别代表批量归一化(BN)和ReLU激活函数;是Sigmoid函数;是区分的注意力图;是通道均值操作。
3.3 跨域调制和选择(CDMS)
我们提出的CDMS旨在融合来自帧和事件域的有价值特征,无论场景的多样性如何,如图5所示。简单地融合帧和事件域并不一定能带来期望的性能提升。在典型情况下,由帧提供的纹理信息和由事件提供的边缘信息都为目标跟踪提供了有意义的线索。然而,在高动态范围(HDR)场景中,例如,帧域线索可能很弱或不存在,没有提供有价值的线索,而事件域线索仍然稳健。类似地,在缺乏运动的情况下,基于事件的相机无法成功记录与对象相关的信息,而传统帧仍然可以提供丰富的纹理特征。因此,有效且动态地融合多域信息对于稳健的目标跟踪至关重要。
如图5所示,我们首先设计了一个跨域注意力块(CAB)以用另一个域的信息补充一个域。具体来说,给定提取的帧特征和事件特征,我们定义了以下跨域注意力方案来为生成一个增强的特征:
其中表示基于的自注意力;是基于的跨域注意力方案,以引导的特征;表示增强的事件特征。类似地,我们可以生成由事件域指导的增强帧特征。基于和,我们进一步提出了一个自适应加权平衡方案(AW)来平衡帧和事件域的贡献:
其中是自适应平均池化。
3.4 分类器和边界框(BBox)回归器
为了增强通用性,我们没有修改现有基于帧的跟踪器的分类器、BBox回归器和损失函数。以PrDiMP为例,BBox回归器包含IoU调制和IoU预测器。IoU调制首先将和映射到不同级别的调制向量和。数学上,映射如下实现:
其中是全连接层;表示PrPool;是参考帧中的目标边界框。接下来,IoU预测器基于以下等式预测IoU:
分类器预测目标置信度分数。它首先将和映射到初始滤波器,然后由优化器进行优化。优化器使用最陡下降方法获得最终滤波器。最终滤波器用作卷积层的滤波器权重,并应用于,以鲁棒地区分目标对象和背景干扰。网络通过最小化预测和标签分布之间的Kullback-Leibler散度进行训练。
4 FE141 数据集
4.1 数据集收集与注释
我们的 FE141 数据集是通过 DAVIS346 相机和 Vicon 运动捕捉系统同时记录的。DAVIS346 相机配备了一个 346×260 像素的动态视觉传感器(DVS)和一个基于帧的有源像素传感器(APS),能够同时捕获事件和灰度帧。由于事件基相机仅在处理变化像素时消耗电力,其功耗显著低于传统相机(即 ≤ 100 mW 对比于 ≥ 3W)。Vicon 系统通过 12 个 Vero 运动捕捉红外相机提供高采样率和亚毫米级精度的 3D 位置和目标轨迹。由于 Vicon 系统采用主动传感来追踪对象,系统发射的红外光在事件领域成为噪声。为解决此问题,我们在 DAVIS346 前置了一个红外滤光片,以滤除波长超过 700 纳米的光线。我们将 DAVIS346 相机的 APS 采样率设置为 10/15/20/40 Hz,并将 Vicon 设置为 240 Hz。数据注释通过从 Vicon 到 DAVIS346 事件相机的 3D 投影完成,更多细节请参考 Mitrokhin 等人(2019)。
4.2 数据集统计
与基于 RGB 的跟踪基准相比,事件基跟踪数据集的尝试较少。Hu 等人通过使用神经形态视觉传感器记录监视器,将现有的 RGB 基准数据集转换为基于 DVS 的数据集。然而,这种设置忽略了事件基相机的高时间分辨率和高动态范围的优势,阻碍了记录连续帧之间的运动信息以及 HDR 场景中的有用线索。Mitrokhin 等人在真实场景中展示了两个事件基跟踪数据集:EED 和 EV-IMO。如表 1 所示,EED 仅有 234 帧(10.2 秒)包含两种类型的对象。EV-IMO 提供了更好的包裹,包括运动掩模和高达 200Hz 的高频事件注释。但是,与 EED 类似,有限的对象类型限制了它的实际应用。最近,Wang 等人提出了一个 RGB-Event 跟踪数据集,称为 VisEvent,但该数据集的事件注释频率仅为 25Hz。此外,VisEvent 中的部分数据存在时间戳不匹配或缺少原始事件,导致只有不完整的数据可用。为解决多模态学习事件的高注释率训练数据的缺乏,我们收集了一个名为 FE141 的大规模数据集,包含 141 个序列,总时长为 2.0 小时。我们还提供了与现有的基于强度图像的目标跟踪数据集的分布差异比较,包括 OTB-2013、OTB-2015、TC-128、VOT-2014、VOT-2017、NUS-PRO、UAV123、UAV20L、GOT-10k 和 LaSOT。我们从多个角度进一步介绍了 FE141 的统计数据,以突出其多样性。
4.2.1 对象和场景类别
我们旨在构建一个具有高度多样性的数据集,涵盖丰富的对象和场景类别。如图 6a 所示,我们的 FE141 数据集包括 21 个不同的对象类别,涵盖了大多数实际应用类别。这些对象可分为三类:动物、车辆和日常用品(例如瓶子、盒子)。鉴于事件基相机对运动的敏感性,我们在具有不同运动的场景下构建了数据集。具体来说,根据摄像机的运动和对象数量,如图 6b 所示,FE141 有四种类型的场景:静态镜头下的单一对象或多个对象(CS/SO 和 CS/MO);动态镜头下的单一对象或多个对象(CM/SO 和 CM/MO)。
4.2.2 注释边界框统计
为探究 FE141 中边界框的位置分布,我们绘制了所有注释边界框位置的分布图。如图 6c 所示,总体边界框分布趋于中心。我们进一步展示了边界框纵横比(即高度除以宽度)的分布,见图 6d。它表明 FE141 数据集中的边界框具有各种形状。
4.2.3 属性定义
如图 6e 所示,我们在 FE141 数据集中定义了八个属性:高动态范围(HDR)、低光照(LL)、APS 帧上有和没有运动模糊的快速运动(FWB 和 FNB)、静态对象(STA)、用频闪光照射的场景(SL)、严重的摄像机运动(SCM)以及与被跟踪对象相似的对象(SM)。前四个对传统的基于帧的跟踪来说很难,而后四个对事件基跟踪来说具有挑战性。
4.2.4 事件率
为分析原始事件流的属性,我们计算了录制期间生成的事件流的速率,计算方法如下:首先将每个序列的事件流时间维度离散化为 间隔。然后统计每个间隔内的事件数量,并计算所有间隔的平均事件数量作为事件率。图 6f 中的事件率分布显示了运动多样性相当广泛。
5 实验
5.1 实验设置
5.1.1 实现细节
我们使用 PyTorch 实现了所提出的网络。对于不同扩展的多模态跟踪器,我们采用了相应原始基于帧的跟踪器相同的训练策略,包括学习率、优化器等。所有方法都在配备 20 核 i9-10900K 3.7 GHz CPU、64 GB RAM 和 NVIDIA RTX3090 GPU 的系统上进行训练。
5.1.2 数据集
我们在三个基于事件-帧的数据集上评估了我们提出的方法:FE141、EED 和 VisEvent。我们的 FE141 数据集包含 141 个序列,其中 93 个用于训练,48 个用于测试。EED 仅用于评估,提供了五个具有挑战性的序列。VisEvent 提供 RGB 帧而非灰度帧。遵循 Zhang 等人的方法,我们过滤掉了缺少原始事件流或时间戳未对齐的序列,剩下 205 个序列用于训练和 172 个用于测试。
5.1.3 评估指标
为展示每个跟踪器的定量性能,我们采用了三个广泛使用的指标:成功率(SR)、精确率(PR)和重叠精度(OPT)。这些指标分别代表三种特定类型的帧的百分比。SR 关注的是真实边界框和预测边界框重叠超过阈值的帧;PR 关注的是真实边界框和预测边界框中心距离在给定阈值内的帧;OPT 代表以 T 为阈值的 SR。对于 SR,我们使用 SR 曲线下面积(AUC)作为代表性的 SR(RSR)。对于 PR,我们使用与 20 像素阈值相关联的 PR 分数作为代表性的 PR(RPR)。
5.2 插件模块
我们提出的 GM-LSTM 用于提取事件特征,CDMS 用于融合两个领域,可以轻松扩展到现有的基于帧的跟踪方法。为验证我们提出方法的有效性和通用性,我们将 GM-LSTM 和 CDMS 模块插入到八个最先进的基于帧的跟踪器中。
5.2.1 在 FE141 数据集上的比较
如图 7a 所示,在 FE141 数据集上,所有使用我们方法扩展的多模态方法在精度和成功率方面均大幅超越了相应的原始基于帧的跟踪器。例如,使用我们方法扩展的 ATOM 在 RSR 和 RPR 方面分别比基础 ATOM 提高了 20.8% 和 30.1%;使用我们方法扩展的 PrDiMP 实现了 56.2% 和 87.3% 的总体 RSR 和 RPR,分别比原始基于帧的模型提高了 12.7% 和 19.3%。实验结果证明了我们方法的有效性和通用性。
为提供更全面的比较,我们将扩展的跟踪器与两种仅使用事件的方法进行了比较:(i) 仅使用事件和 EFE 进行跟踪,称为 Only-Event;(ii) STNet,一种结合了 Swin-Transformer 和 Spiking Neural Networks 来提取空间和时间特征以提高跟踪性能的最先进基于事件的跟踪器。我们还比较了我们的扩展跟踪器与两种基于帧-事件多模态方法:(i) FENet,本文的初步版本;(ii) ViPT,一种引入了 prompt-learning 理念的最先进多模态跟踪方法。为进一步验证我们多域融合的有效性,我们还展示了在四种不同具有挑战性条件下的性能,包括高动态范围(HDR)、低光照(LL)、带模糊的快速运动(FWB)和不带模糊的快速运动(FNB),这些条件对帧域来说极具挑战性。如表 2 所示,我们的扩展方法在所有四种条件下均优于相应的原始方法,尤其是在 HDR 和 LL 条件下。例如,在 HDR 条件下,使用我们方法扩展的 STARK-S 在 RSR 和 RPR 方面分别比基础 STARK-S 提高了 14.7% 和 15.6%;在 LL 条件下,使用我们模块扩展的 TransT 在 RSR 和 RPR 方面分别比原始 TransT 提高了 27.0% 和 38.8%。结果表明,我们的扩展多模态跟踪器可以有效地提取并利用事件域提供的信息。
为评估帧域在多模态中的影响,我们在降低事件数据质量的四种降级条件下报告了 FE141 上的跟踪性能:(a) 场景中的对象与被跟踪对象相似(SM);(b) 严重的摄像机运动(SCM);(c) 用频闪光照射的场景(SL);(d) 静态对象(STA)。如表 3 所示,除了扩展 ATOM 和 SparseTT 之外,所有扩展的跟踪器均优于 STNet。例如,扩展的 PrDiMP 实现了 56.2% 的总体 RSR 和 87.3% 的 RPR,分别比 STNet 提高了 8.0% 和 11.6%。这表明帧域确实提高了跟踪的鲁棒性。这些结果说明,即使一个模态缺乏可用信息,我们的方法仍然可以利用另一个模态有效地定位目标。图 10 中展示了在不同降级条件下的多个视觉示例,我们可以看到我们扩展的方法在所有条件下都能有效地跟踪目标。我们在补充视频中提供了在不同条件下使用我们模块与基础跟踪器相比的扩展跟踪器的额外定性比较。补充视频可在 https://youtu.be/ul-8poOPgs8 上获得。
5.2.2 在 EED 数据集上的比较
尽管 EED 的帧数和相应的事件非常有限,但它提供的序列对目标跟踪来说仍然具有挑战性。如图 7b 所示,我们可以看到带有我们提出模块的扩展跟踪器在 RSR 方面显著提高了基础跟踪器的性能。
5.2.3 在 VisEvent 数据集上的比较
为确认我们的方法在 RGB 帧和相关事件上保持有效性,我们进一步在 VisEvent 数据集上训练并验证了我们的方法。如表 4 所示,使用我们模块扩展的跟踪器在准确性方面仍然优于基础跟踪器。这些结果再次表明了我们提出网络在 RGB-事件基础数据集上的有效性和通用性。我们还提供了更多的视觉结果在补充视频中。
5.3 消融研究
与第 3 节一致,我们的消融实验基于扩展的多模态跟踪器 PrDiMP。
5.3.1 多模态输入的影响
为展示多模态输入对目标跟踪的影响,我们进行了以下两个实验:(i) 仅使用帧和 FFE;(ii) 仅使用事件和 EFE。结果明显不如具有多模态输入的跟踪结果,这验证了多模态融合在降级条件下跟踪的有效性。
5.3.2 GM-LSTM 的有效性
所提出的全局空间依赖性提取器(GSDE)和运动感知模块(MAM)是 GM-LSTM 的两个关键组成部分。为了验证它们的效果,我们通过移除每个组件并重新训练修改后的模型来进行实验。相应地,我们得到了四个重新训练的模型:(i)没有 GM-LSTM;在 GM-LSTM 内部,(ii)没有 GSDE;(iii)没有 MAM;(iv)用卷积层(即 ConvLSTM)替换 GSDE 和 MAM。表 5 中的对应实验结果从 C 到 F 行展示了这些情况。我们可以看到,当移除 GM-LSTM 时,RSR 和 RPR 分别显著下降了 5.1% 和 9.1%。这说明时间信息在我们提出的跟踪器中起着关键作用。当移除 GSDE 时,RSR 下降了 2.0%,这表明捕获长期空间依赖性可以增强 LSTM 的特征表达能力。当移除 MAM 时,RSR 和 RPR 分别下降了 1.4% 和 2.4%,表明不同状态之间的区分信息可以提高我们跟踪器的置信度。通过比较表 5 中的 D 到 F 行,当同时移除 GSDE 和 MAM 时,性能进一步下降,再次证明了所提出的 GSDE 和 MAM 的有效性。
在我们的设置中,GSDE 中的查询向量和是相同的,都是从估计的。为了使我们的设计更有说服力,我们进行了以下两个实验:(i)和分别从和估计;(ii)和相同,都从估计。当和不在和之间共享时,RSR 和 RPR 分别下降了 2.1% 和 4.1%,如表 5 的 G 行所示。这表明当前输入状态和先前输出状态之间的交互增强了我们跟踪器的置信度。当和都从估计时,如第二行所示,OP0.75 高于我们的设置。然而,我们的设置在其他三个指标上优于这种设置,RSR 提高了 1.1%,OP0.50 提高了 0.2%,RPR 提高了 3.3%。我们认为这是因为是由 GM-LSTM 中的多次迭代生成的,它比存储了更丰富的时间信息。
5.3.3 CDMS 的有效性
我们通过从扩展的跟踪器中移除 CDMS 模块及其组件来研究所提出的 CDMS 模块的影响。CDMS 中有三个关键组件:自注意力(公式 12)、跨域注意力(公式 13)和自适应加权(公式 14)。相应地,我们进行了四次重新训练的比较模型:(i)没有 CDMS;在 CDMS 内部,(ii)没有自注意力(CDMS w/o SA);(iii)没有跨域注意力(CDMS w/o CA);(iv)没有自适应加权(CDMS w/o AW)。表 5 中的 I 到 L 行展示了这四个修改模型的结果。与原始模型相比,移除 CDMS 对性能影响最大,RSR 和 RPR 分数分别下降了 3.9% 和 4.9%。当移除 CDMS 的不同组件时,性能会不同程度的下降。这些结果证明所提出的 CDMS 及其组件都有助于跟踪性能。
为了进一步评估我们提出的自适应加权方案,我们在图 10 中报告了扩展的 PrDiMP 跟踪器估计的两个权重(即用于帧域;用于事件域)。在图 10a–d 中,帧域无法提供可靠的视觉线索。相应地,我们可以看到这些示例中的明显高于。在图 10e–h 中,当事件数据出现欺骗性时,我们可以看到倾向于增加,相应地减少。在图 10e 中,被跟踪的对象从过曝区域移动到正常区域,帧域的权重从低到高相应变化。在过曝场景中,我们的方法倾向于更多地依赖事件域的优势;在正常照明下,帧域的权重高于事件域,因为它提供了区分相似对象的纹理信息。在图 10f、g 中,我们认为大于的原因是模型被训练为专注于帧域中的纹理线索,但在这些情况下无法提取纹理线索。图 10h 描述了目标从运动状态过渡到静止状态。#12 显示,在运动期间,与帧相比,事件域提供了明显的边缘信息,因此大于;当目标在 #16 中静止时,事件域无法提供有价值的信息,导致急剧下降。值得一提的是,带有我们模块的扩展跟踪器可以在所有示例中成功跟踪目标。这证明了我们提出的方法能够动态平衡帧域和事件域的贡献。即使一个域受到限制,所提出的 CDMS 仍然可以基于另一个域提供有价值的信息进行目标定位。
5.3.4 事件表示的影响
在这项工作中,关于事件表示影响跟踪性能的两个主要因素是:(i)原始事件的累积方式。我们提出的累积方法保留了最新时间戳以记录最新的跟踪关键运动线索。为确认其有效性,我们用五种常用的事件聚合方法进行了实验。结果显示在表 5 的 M-Q 行中,表明我们的方法优于其他比较的表示方法;(ii)超参数 n。对于记录在两个连续帧之间的事件,我们将它们在时间域切成 n 个区块,然后将它们累积为 EFE 的输入。如图 8 所示,随着 n 值的增加,RSR 和 RPR 分数呈上升趋势。然而,较大的 n 值会减慢推理时间。我们可以看到 n=3 在准确性和效率之间提供了最佳折衷。这些结果表明,将事件流转换为时空体素网格可以提高跟踪的稳健性。
5.4 融合策略的比较
为了进一步证明事件特征提取器 GM-LSTM 和融合模块 CDMS 需要精心设计的必要性,我们首先通过连接的方式将传统帧和事件聚合帧结合起来,训练和测试了前三名基于帧的跟踪器。这里,我们采用了以下两种融合策略:(a)早期融合(EF),我们首先将相应的帧和事件数据连接成一个统一的数据,然后将融合后的数据输入跟踪模型;(b)中期融合(MF),我们首先使用基于帧的跟踪器的主干来分别提取帧和事件特征,然后将提取的特征连接起来并输入到回归器。此外,我们将初步版本 FENet 扩展到前三位跟踪器,将它们变成多模态方法。如表 6 所示,采用我们方法的扩展多模态跟踪器仍然以相当大的差距优于其他所有方法。这反映了我们特别设计的事件特征提取器和跨域特征整合器的有效性。我们还观察到,只有简单地组合帧域和事件域,就可以显著提高所选三种方法的性能。这意味着事件信息在处理降级条件下确实发挥了重要作用。图 11 提供了更多的视觉示例。一个有趣的观察是,应用提出的方法显著提高了 TransT 在 SCM 场景中的 RPR 性能,但导致了 PrDiMP 和 STARK 的性能下降。SCM 是事件域最具挑战性的条件之一。
5.5 计算成本
我们的 GM-LSTM 旨在以极低的计算成本利用事件的时空特征和运动线索。为了证明其效率,我们在两个方面进行了比较:(i)与现有跟踪器相比,扩展跟踪器的实时性超过 30.0 fps;(ii)将使用 ConvLSTM 的扩展跟踪器与我们提出的 GM-LSTM 进行比较。结果表明,我们的 GM-LSTM 在计算成本极低的情况下取得了显著的性能提升,与 ConvLSTM 相比,我们的扩展跟踪器在 RSR 和 RPR 分数上分别提高了 2.5% 和 4.5%。例如,在扩展的 PrDiMP 跟踪器上,我们的方法仅增加了 0.6G MACs 和 0.4M 参数,相比基于 ConvLSTM 的方法。这表明我们的方法几乎可以免费利用事件中的时空特征和运动线索。我们的 GM-LSTM 之所以轻量级,有两个原因:我们只在 GM-LSTM 中添加了三个额外的卷积层,略微增加了参数数量;我们对 GM-LSTM 的输入进行了下采样,以实现低乘加操作。
6 讨论和结论
在本文中,我们引入了事件域到基于帧的跟踪方法中,以增强在不同挑战条件下的跟踪性能。我们提出的事件特征提取器可以有效提取事件数据中的时空信息和运动线索。我们新颖设计的注意力方案能够适应性地融合来自帧域和事件域的信息。我们还引入了一个大规模的帧-事件基础目标跟踪数据集来训练我们的网络,并激发这个领域的进一步研究。使用我们方法的多个扩展跟踪器超越了相应的原始跟踪器,这表明利用事件和帧的互补性可以增强降级条件下目标跟踪的稳健性。
6.1 局限性
尽管使用我们提出的方法的扩展跟踪器在 FE141、EED 和 VisEvent 测试集上取得了最先进的跟踪性能,但它们确实存在局限性。特别是,扩展的多模态方法可能会在场景非常复杂且两个域的数据提供的信息不足的情况下失败,如图 9a 所示。当目标的一部分离开视野时,这些跟踪器无法成功匹配目标,如图 9b 所示。我们认为需要更深入的研究来研究这些极端情况。
6.2 未来工作
目前,我们主要专注于开发一种可以增强视觉跟踪鲁棒性的跨域融合方案,特别是在降级条件下。尽管消融研究确实验证了我们提出的 GM-LSTM 和 CDMS 的有效性,但在未来工作中,我们在保持甚至提高性能的同时简化架构也是一个方向。此外,我们尚未利用基于事件相机的高测量率来实现高时间分辨率的跟踪。利用高事件测量率实现更高的跟踪速度对许多实际应用来说具有吸引力。实现这一点的一种可能方法是根据一帧和随后捕获的事件生成潜在帧。然而,潜在帧估计引入的计算延迟可能是实现所需跟踪速度的障碍。另一种可能的解决方案是利用事件和帧之间的时间对齐。我们认为基于图的算法是一个有希望的方向。此外,使用先进的高质量 APS 和高分辨率 DVS 进行跟踪提供了重要的前景,但也带来了一定的挑战。例如,具有不同视点的多模态数据可能需要对齐和同步以确保时间和空间的一致性;一个模态可能丢失关键信息,从而增加了融合的复杂性。我们的进一步工作还将专注于通过收集更多序列来扩展 FE141 数据集,特别关注提高数据质量和整合常见的非刚性对象。
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。