BoT-SORT: Robust Associations Multi-Pedestrian Tracking
- paper https://arxiv.org/abs/2206.14651
- code https://github.com/NirAharon/BoT-SORT
Abstract
多目标跟踪(MOT)是检测和跟踪场景中的所有物体,同时为每个物体保留唯一的标识符。在本文中,我们提出了一种新的鲁棒性先进跟踪器,它能将运动和外观信息的优势与摄像机运动补偿以及更精确的卡尔曼滤波器状态向量结合起来。我们的新跟踪器 BoT-SORT 和 BoT-SORT-ReID 在 MOTChallenge 数据集的 MOT17 和 MOT20 测试集上,在所有主要 MOT 指标方面均排名第一: MOTA、IDF1 和 HOTA。在 MOT17 中:MOTA 达到 80.5,IDF1 达到 80.2,HOTA 达到 65.0。
Introduction
- MOT目的是在视频流中检测并估计大量目标的时空轨迹 spatial-temporal trajectories ,广泛应用用于无人驾驶和视频监控
- MOT主流范式为基于检测的跟踪 tracking-by-detection,即先检测后跟踪。跟踪通常包括2个主要部分
- 目标的定位,主要是预测轨迹边界框和检测边界框之间的IoU
- 目标的外观模型和解决Re-ID任务
- 主要通过卡尔曼滤波 KF 预测后续帧的轨迹边界框位置
- 运动模型和状态估计
- 将新帧检测与当前轨迹集相关联 这2种方法都被量化为距离,并用于将关联任务作为全局分配问题来解决
- 大多数
SORT-like
算法采用卡尔曼滤波器
和恒速模型
假设作为运动模型。KF
用于预测下一帧中的tracklet
边界框,以与检测边界框相关联,并用于在遮挡或未检测到的情况下预测tracklet
状态。 与目标检测器驱动的检测相比,使用KF
状态估计作为跟踪器的输出会导致边界框形状次优。最近的大多数方法都使用了经典跟踪器DeepSORT
中提出的KF
状态表征,它试图估计框的纵横比而不是宽度,这导致宽度大小估计不准确。SORT-like
IoU-based
方法主要取决于tracklet
的预测边界框的质量。因此,在许多复杂的场景中,预测边界框的正确位置可能会由于相机运动而失败,这导致2个相关边界框之间的重叠率低,最终导致跟踪器性能低下。作者通过采用传统的图像配准来估计相机运动,通过适当地校正卡尔曼滤波器来克服这个问题。这里将此称为相机运动补偿
(CMC
)。 在许多情况下,SORT-like
算法中的定位和外观信息(即重识别)会导致跟踪器的检测能力 (MOTA
) 和跟踪器随时间保持正确身份的能力 (IDF1
) 之间的权衡。使用IoU
通常可以实现更好的MOTA
,而Re-ID
可以实现更高的 IDF1
Contributions
- 通过解决上述
SORT-like
的跟踪器的限制并将它们集成到ByteTrack
Related Work
- Motion Models
- Appearance models and re-identification
Methodology
Overview
Kalman Filter
- 通常采用SORT中恒速先验的卡尔曼滤波建模目标运动,其状态向量是7元组,但是实验中发现对边界框宽高的估计会比宽高比的估计更好,所以改成了8元组状态向量
- SORT中 Q R 选择时间无关的矩阵
- 长时间使用KF会出现边界框形变,即宽度误差(图中蓝色),而改进的KF对宽度拟合更好(绿色),实验中HOTA指标更高
Camera Motion Compensation (CMC)
Tracking-by-detection
跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠- 在动态相机情况下,图像平面中的边界框位置可能会发生显著变化,这可能会导致 ID 切换或假阴性增加。
- 静态相机场景中的跟踪器也可能因振动或漂移引起的运动而受到影响,就像在 MOT20 中一样,在非常拥挤的场景中,ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动,来自相机姿态的变化,以及物体的非刚体运动。
- 由于缺乏关于相机运动的额外数据(例如导航、IMU 等)或相机内参,2个相邻帧之间的图像配准是相机刚性运动在图像平面上投影的良好近似。
- 使用OpenCV的全局运动估计 (GMC) 技术来表示背景运动。
- 首先提取图像关键点,然后利用稀疏光流进行基于平移的局部异常点抑制的特征跟踪。这里先使用
RANSAC
计算出仿射变换矩阵 A ∈ R 2×3 。 - 然后使用仿射变换矩阵将预测边界框从k-1帧的坐标系变换到下一帧k的坐标。
- 使用稀疏配准技术允许在检测的基础上忽略场景中的动态物体,从而有可能更准确地估计背景运动。
- 变换矩阵的平移部分只影响边界框的中心位置,而另一部分则影响所有状态向量和噪声矩阵。
- 首先提取图像关键点,然后利用稀疏光流进行基于平移的局部异常点抑制的特征跟踪。这里先使用
- M包含A中的scale和rotation部分,T包含translation部分
- 第k帧补偿前后的状态为(X_hat, P_hat 为补偿后状态),X表示状态向量,P表示KF预测的协方差矩阵
- 用补偿后状态更新KF
- 在高速的情况下,状态向量的完全修正,包括速度项是必要的。当相机与帧率相比变化缓慢时,校正值可以省略。通过应用这种方法,跟踪器对相机的运动具有较好鲁棒性。
IoU - Re-ID Fusion
- 为了提取这些
Re-ID
特征,在来自FastReID
库的BoT
(SBS
) 之上采用了更强的基线。 - 因为外观特征可能容易受到人群、遮挡和模糊对象的影响,为了保持正确的特征向量,只考虑高置信度检测。为了在平均轨迹外观状态和新的检测嵌入向量之间进行匹配,测量余弦相似度。作者决定放弃外观成本 Aa 和运动成本Am之间的共同加权和来计算成本矩阵C,lambda=0.98
- 开发了一种结合运动和外观信息的新方法,即
IoU
距离矩阵和余弦距离矩阵。首先,就IoU
的分数而言,低余弦相似度或距离较远的候选者会被拒绝。然后,使用矩阵的每个元素中的最小值作为Cost矩阵 C 的最终值。IoU-ReID
融合管道可以表述如下
Experiments
- Ablation study
- SOTA
Conclusions
- 用了很多 trick 提高性能指标,包括对KF中宽高的估计、运动相机补偿、IOU和REid融合
- 其中运动相机补偿最重要