与实时多目标跟踪(MOT)相比,离线多目标跟踪(OMOT)具有执行2D-3D检测融合、错误链接校正和全轨迹优化的优势,但同时也面临着边界框不对齐和轨迹评估、编辑、细化等挑战。 本文提出了“BitTrack”这一3D OMOT框架,包括2D-3D检测融合模块、初始轨迹生成模块以及双向轨迹重新优化模块,以实现从摄像头-LiDAR数据中获取最优跟踪结果。 本文的创新之处有三方面: (1) 开发了一种点 Level 的目标注册技术,该技术采用基于密度的相似性度量以实现2D-3D检测结果的高精度融合; (2) 开发了一套数据关联和轨迹管理技巧,利用基于顶点的相似性度量以及虚假警报拒绝和轨迹恢复机制生成可靠的双向目标轨迹; (3) 开发了一种轨迹重新优化方案,以贪婪方式重新组织不同忠实度的轨迹片段,并使用完成和平滑技术细化每条轨迹。 在KITTI数据集上的实验结果表明,BitTrack在3D OMOT任务的准确性和效率方面达到了最先进的表现。
I Introduction
许多应用需要离线多目标跟踪(OMOT)技术来实现高精度的目标轨迹,例如运动分析和数据集标注。实时多目标跟踪(MOT)通常采用跟踪-by-检测或联合检测与跟踪[5]方案。相比之下,OMOT更倾向于前者,因为许多后处理和全局优化技术依赖于检测结果。大多数OMOT关联框架可以分为两类:
(1)检测结果的优化和聚类,以及(2)初始轨迹的编辑和细化。这两类都依赖于检测的质量。由于缺乏序列信息,前者可能遭受上下文不一致和计算不稳定的问题;
而基于顺序跟踪结果,后者通常能保证性能。许多方法利用2D检测结果来改进3D检测,其性能受到级联 Pipeline [12]或各种2D-3D目标配准误差[13]的限制。
因此,为了开发一个基于后处理的OMOT框架(如图1所示),以下技术挑战必须得到妥善处理:
- 2D-3D目标配准。传感器校准错误、目标间遮挡、检测不准确和边界框对齐不当导致2D-3D目标后期融合中许多配准噪声。
- 初始轨迹生成。关联准确性依赖于目标相似性度量和跟踪管理机制的质量,这些机制受到复杂目标运动、检测误报和目标重新出现的影响。
- 轨迹后处理。轨迹后处理包括两个方面:(1)多个轨迹的重新组织,以及(2)每个单独轨迹的细化。前者需要跟踪质量评估和关联技术,而后者需要轨迹完成和回归技巧。这两个方面都受到目标时间上的矛盾、跟踪不确定性和计算负担的影响。
许多检测融合方法[13]使用2D边界框和3D边界框的透视视图(PVs)之间的2D交并比(IoUs)作为融合线索,但由于遮挡,这可能导致模糊性。大多数实时MOT方法采用基于边界框的目标相似性度量和基于生命周期的跟踪管理机制,但其中很少有考虑度量限制或检测错误的性质。许多OMOT方法使用聚类[8]、关联[4]或回归[4, 11]技术进行轨迹细化,但它们很难利用全局顺序信息重新组织现有轨迹。
本文提出了一种名为“BiTrack”的OMOT框架,该框架能够实现健壮的2D-3D检测融合、可靠的初始轨迹生成和高效的轨迹重优化。这项工作的贡献包括:
- 开发了一个2D-3D检测融合模块,该模块利用点 Level 表示和目标点密度来实现健壮的目标配准。
- 开发了一个轨迹生成模块,该模块采用尺度平衡的目标相似性度量和面向离线的跟踪管理机制,以实现可靠的3D MOT。
- 开发了一个轨迹重优化模块,该模块利用基于优先级的片段优化以及轨迹完成和平滑技巧,实现高效的双向轨迹融合和单轨迹细化。
- 在https://github.com/Kemo-Huang/BiTrack发布了本工作的源代码。
本文的组织结构如下。第二节介绍了相关的检测和MOT方法。第三节阐述了系统设置和待解决的问题。第四节描述了提出的方法。第五节展示了实验和分析。第六节总结了本文。
II Related Work
表1总结了典型的2D-3D目标检测、实时多目标跟踪(MOT)和双向多目标跟踪(OMOT)方法。在3D目标检测[13, 14]和3D MOT[12]中存在许多多模态检测融合方法。JRMOT[12]采用了基于视锥的融合方法[14]进行级联2D-3D检测,其中2D检测阶段成为了瓶颈。CLOCs[13]使用独立的检测分支,并使用2D结果重新评估3D检测的置信度。然而,基于2D IoU的2D-3D目标对应可能会因目标遮挡而受到影响。
IoU和中心距离是2D和3D MOT中两种普遍的目标运动相似性度量。这两种度量提供不完整的空间信息,而由于尺度差距[4],2D外观相似性难以与后者结合。此外,命中-丢失方案通常用于轨迹管理,但它们大多数仅针对在线应用设计。
许多OMOT方法基于实时MOT结果执行轨迹后处理,这隐式地要求顺序关联。像最小成本流[6]和层次聚类[8]这样的方法可以在没有顺序提示的情况下从全局图合并检测结果。然而,它们通常导致计算量沉重且目标相似性不一致。ReMOT[9]在滑动窗口中重新评估2D目标相似性,用于轨迹片段的分割-合并。TMOH[10]组装来自前向和后向数据序列的结果,但通过替换整个轨迹简单地处理目标链接矛盾。此外,可以在最终阶段使用物理模型[3, 4]或深度学习模型[11]执行单轨迹细化。
BiTrack遵循检测和跟踪的细化方案。与之前的工作相比,本研究提供了点级检测融合的特征、基于鲁棒运动的初始轨迹生成以及基于分割-合并的双向轨迹重新优化。
III System Setup and Problem Statement
BiTrack可以分为三个主要模块:(1) 2D-3D目标检测,(2) 初始轨迹生成,以及(3) 双向轨迹重新优化,如图2所示。整个流程是完全自动的。
给定一系列相机和激光雷达输入,OMOT的目标是在所有帧中定位并识别3D环境中特定类别的目标。在数据预处理中,目标检测器在单独的分支中使用检测置信度 和 分别定位2D目标 和3D目标 。BiTrack以下列方式执行OMOT。
首先,2D-3D目标融合模块使用相机内参 ,相机-激光雷达外参 和2D-3D检测相似性 在 和 之间执行目标注册。2D-3D目标注册被作为一个完整的二分图匹配问题来求解分配矩阵 :
最终的用于跟踪的3D检测结果 从 中根据 , 和 选择,使用检测决策函数 :
根据约束条件:
- 对于所有 ,有
- 对于所有 ,有
- 对于所有 和所有 ,有
因此,本研究提出的方法主要解决以下问题:
- 如何评估2D-3D检测相似性 ?
- 如何评估检测-预测相似性 并设计命中-未命中阈值 ?
- 如何执行方程(8)的优化和方程(10)的细化?
IV Proposed Methods
2D-3D Object Registration via Points
这项工作指出,对于2D-3D目标融合,2D IoU有三个不足之处:(1) 对于被遮挡物体的3D边界框的投影体积比2D边界框大,(2) 3D框的投影体积可能发生重叠,以及(3) 边界框在角落处包含空间。然而,2D分割 Mask 和3D目标点之间的点密度度量可以完美解决这些问题。
Iv-B1 Point-Level Segmentation
为了获得像素级的目标 Mask ,需要用到2D实例分割。另一方面,由于3D物体很少重叠,尤其是对于刚体来说,可以从3D目标检测得到的3D边界框直接用于裁剪激光雷达点以提高效率。尽管在边界框内裁剪激光雷达点可能会花费更多的计算资源,但在离线设置下,通过多处理可以将多个数据帧的操作并行化以加快执行速度。
Iv-B2 Point-Level Association
在去除背景后,2D和3D物体之间的对应关系应当能够抵抗物体遮挡。然而,传感器校准误差和检测不准确仍然可能产生配准噪声,例如,一个2D实例 Mask 可能包括了多个3D物体的投影点。因此,应该量化2D-3D物体的相似性,并执行优化。这项工作使用重叠像素的数量作为 ,并使用匈牙利算法 [15] 来解决方程 (1)。
图4展示了2D-3D物体融合的效果。原始检测结果是使用SOTA方法VirConv [16] 在KITTI [17] 数据集上生成的。所提出的2D-3D融合方法可以有效减少误报,同时高质量的检测结果可以成功地为轨迹生成阶段选择。整个融合过程如算法1所示。
Reliable Initial Trajectory Generation
Iv-B1 Integrated Object Motion similarity Metric
图3:双向轨迹融合符号定义的视觉解释。最好以彩色观看。
3D IoU和中心距离(CD)指标都有其不足之处:(1) 3D IoU对目标旋转误差过于敏感;(2) CD没有利用目标的大小和旋转线索;(3) 对于分离的目标,3D IoU无法比较(为零);(4) CD的数值没有上限。为了补充这两个指标,本文提出归一化中心距离(NCD)作为几何成本。具体而言,针对和提出的NCD相似性度量定义为:
其中表示欧氏距离,表示边界框的中心,表示边界框的顶点,和是由卡尔曼滤波器预测的值。NCD度量在目标相似性评估中提供了两个主要优点:(1) 同时利用边界框的位置、大小和旋转;(2) 归一化的数值,便于与其他相似性(例如,外观嵌入之间的余弦相似性加权求和)结合使用。
Iii-B2 Previous Tracklet Recovery and Double Miss Thresholds
在线跟踪结果应该按顺序报告,但OMOT可以打破这一限制。一旦目标被确认,可以恢复它们之前的轨迹片段以生成更完整的轨迹。此外,基于这样一个直觉,即假警报通常不会连续出现,为跟踪候选设置了一个额外的漏检阈值,以便快速拒绝假警报。
Iii-B3 Velocity Re-initialization
大多数基于SORT的方法[18, 3, 4]简单地初始化目标线性速度为零,并将估计留给后续更新中的卡尔曼滤波器。然而,这种不准确的知识先验使得卡尔曼滤波器难以收敛,并导致在早期阶段预测不准确。这项工作提出在目标首次与新测量值匹配后重新初始化目标的状态。具体来说,静态状态被精确地更新为新的测量值,而线性速度则被重新初始化为经过的帧数除以的平移量。所有状态协方差都像往常一样更新。
Efficient Trajectory Re-Optimization
提出了三种高效的后处理步骤用于多目标跟踪(MOT),以提升关联准确性、边界框完整性和轨迹平滑性。前向和后向轨迹整合实现了对误报和身份切换的识别,而顺序边界框精细化处理实现了对假阴性和回归误差的识别。
Iii-C1 Bidirectional Trajectory Clustering
为了在搜索边界内执行轨迹融合,有必要将前进和后退轨迹聚类成几个组。这项工作将聚类条件定义为存在相等的边界框。在遍历边界框时,如果按顺序帧对边界框进行排序,"双指针"技术可以加速搜索。然后,轨迹形成为一个二分图,其中节点是轨迹ID,边表示两组轨迹之间存在相等的边界框。轨迹聚类基本上是一种广度优先搜索(BFS),将二分图转换为森林。整个过程如算法2所示。
算法1 2D实例 Mask 和3D边界框之间的点级融合
Iii-C2 Bidirectional Trajectory Fusion
本研究表明,正向跟踪与反向跟踪结果之间的差异通常分为两种情况:
(1)目标速度变化大,(2)速度初始化错误。因此,提出的双向轨迹融合策略分为两个方面:
(1)尽可能多地合并轨迹片段,(2)尽可能多地选择长轨迹中的片段。对于那些轨迹没有时间矛盾的簇,直接合并轨迹。对于其他簇,则在片段层面上分割、选择并合并轨迹。具体来说,将公共目标链接提取为保证片段,而其他则成为候选片段。
只有当两组片段的时间帧相互排斥时,它们才能被合并。BiTrack采用贪心方法,根据优先级函数(8)选择候选片段。图5展示了一个视觉示例。整个流程在算法3中演示。与TMOH [10]使用整个轨迹替换策略选择长轨迹不同,这项工作将原始轨迹分割成片段,并根据历史更新状态重新组合它们,因此可以更精细地处理轨迹矛盾。
Iv-B3 Single-Trajectory Refinement
在获得精确的目标关联后,可以通过轨迹完善和平滑进一步细化每个单独的轨迹。对于轨迹完善,这项工作对3D位置和检测置信度进行线性插值,以恢复缺失的目标。为了避免添加假阳性,这项工作只在大小为 的滑动窗口内对目标进行插值,并根据NCD和阈值 过滤那些与现有目标过于接近的结果。对于轨迹平滑,这项工作对刚性目标执行置信度加权的尺寸平均,并通过高斯过程回归3D位置,其径向基函数核 基于自适应平滑性控制函数 [4]: ,其中 是轨迹长度, 是一个超参数。
V Experiments
Dataset and Evaluation Metrics
KITTI跟踪基准[17]被用作评估平台。它包括21个训练序列和29个测试序列的前视摄像头图像和激光雷达点云。所有传感器数据都是预先校准并同步的。 GT 值(GT)包括3D边界框、类别和跟踪ID。实验遵循KITTI基准的官方评估设置,并使用了所有训练序列中汽车的标签。目标检测的真阳性(TP)、假阳性(FP)和假阴性(FN)的判断基于3D空间中的旋转IoU,而MOT的判断基于图像平面上的2D IoU。检测的3D IoU阈值为0.7,跟踪的2D IoU阈值为0.5。目标检测使用了40个召回位置的的平均精度(AP)指标。MOTA[20]和HOTA[21]是MOT的两个主要指标,其中MOTA对FP、FN和ID转换(IDSW)进行惩罚,而HOTA依赖于检测精度(DetA)和关联精度(AssA)。
Implementation Details
在预处理阶段,采用了3D目标检测方法VirConv[16]和2D实例分割方法PointTrack[22],以生成高质量的检测输入。在2D-3D目标融合中,本研究设置和。在3D轨迹生成中,本研究设置,初始状态协方差,过程协方差,测量协方差,其中是单位矩阵。在轨迹管理中,对于新轨迹和确认轨迹,本研究分别设置和。在单轨迹细化中,本研究设置,,以及。
Comparative Results
这项工作与一个强大的OMOT Baseline PC3T [3]进行了比较,后者同样基于3D卡尔曼滤波的检测跟踪范式。BiTrack和PC3T在跟踪时都无需网络训练过程,因此这项工作使用了全部21个训练序列进行评估。为了进行公平的比较,所有实验都使用了相同的3D目标检测源(VirConv [16])。表2显示了BiTrack在MOTA( 1.62%)和HOTA( 1.26%)方面的优势。为了进一步证明所提出方法的有效性,这项工作基于官方代码重新实现了具有所提出的2D-3D检测融合模块和单轨迹细化模块的 Baseline 。结果表明,这两个模块都为PC3T带来了性能提升,但BiTrack仍然优于改进后的 Baseline 。
这项工作将测试集结果提交到KITTI测试服务器。表3显示了在KITTI测试集上的MOT结果比较,其中BiTrack在HOTA方面超过了所有其他公开的MOT方法。主要优势在于检测准确性(DetA),因为相对而言误报和漏检的目标较少。关联准确性(AssA)略低于VirConvTrack [3, 16],这可能是由于检测到的目标数量较多所致。
Ablation Studies
对于2D-3D物体融合,这项工作比较了以下几种物体表示在检测精度和跟踪准确性方面的表现:
(1)3D边界框,(2)2D边界框,(3)3D物体点云,(4)2D实例 Mask 。
特别是,通过扩展2D实例 Mask 来获得2D边界框。将框内像素数量作为“框点”融合和“ Mask 框”融合的2D-3D物体相似度。所有物体融合方法共享相同的MOT模块和相同的检测置信度阈值。表4显示,所提出的“ Mask 点”融合方法在困难物体的检测精度以及物体跟踪准确性方面均优于其他框级融合方法。
对于初始轨迹生成,评估了基于卡尔曼滤波的3D MOT提出的改进。表5显示,所有修改对跟踪准确性都有积极影响,尤其是对于NCD相似度量和轨迹恢复。双缺失阈值和速度重新初始化带来了小幅改进。
基于单向跟踪的最佳结果评估了双向多轨迹融合模块。表6显示,平均而言,向后轨迹的准确性略低于向前轨迹。然而,所提出的方法可以通过在它们之间选择更好的物体链接来改进轨迹。所提出方法的性能主要依赖于轨迹差异,这在实验中通常较小。由于双向轨迹融合仅改变连接物体的方式,而物体本身保持不变,因此通过双向轨迹融合提高高质量跟踪结果的效果是困难的。
对于单轨迹细化模块,基于双向融合结果评估了加权尺寸平均、线性插值和高斯过程回归技术。表7显示,所有这些方法都因更完整的轨迹和更正确的物体回归结果而提供了性能提升。
结论
这篇论文提出了BiTrack,一个基于2D-3D检测融合、双向跟踪和轨迹再优化的OMOT框架。它使用了点级别的对象对应关系,一个综合的对象运动相似性度量,改进的命中-未命中管理,基于贪心的片段融合机制,以及物理模型来生成准确的离线轨迹。我们的方法在KITTI排行榜上取得了公共方法中的最高性能。由于解耦的架构以及高效且全自动的流程,BiTrack可以轻松应用于3D对象数据集标注平台和其他离线应用。
参考
[1].BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data.