论文:Multi-Object Tracking Meets Moving UAV(CVPR2022)
代码:https://github.com/LiuShuaiyr/UAVMOT
动机
运动的无人机拍摄的视频中的目标,检测阶段存在类别不平衡;关联阶段存在视角变化、相机运动导致的目标不规则运动。
方法
是在FairMOT基础上改的。提出三个创新点:ID feature update (IDFU)模块、adaptive motion filter (AMF)、gradient balanced focal (GBF) loss。IDFU用于增强相邻帧之间的reID特征联系,AMF用于解决运动无人机视频中复杂的运动,GBF用于训练heatmap,缓解类别不平衡问题和增强对小目标的检测能力。
- IDFU reID特征在轨迹关联时是非常重要的,但是在运动无人机中视角的变化会改变reID特征,这对训练ID特征embedding和推理时的轨迹关联都不利。 作者提出IDFU模块,提取上一帧的物体特征与当前帧特征进行关联,以达到动态更新ID特征的目的。具体做法如图所示 共分为三个阶段:首先提取上一帧的topk个物体的reID特征,并从128维压缩到16维;然后将128维的topk的特征与当前帧的特征进行相关操作,得到attention权重W_A,将W_A和FC_{ID}^{t-1}相乘得到FA_{ID}^{t-1},然后将加权后的上一帧FA_{ID}^{t-1}和当前帧的特征F_{ID}^{t}拼接起来过一个卷积得到更新后的特征。
- AMF 在UAV视频中物体的运动不再是线性的,而是UAV运动和物体运动共同形成的非线性运动。传统的卡尔曼滤波器难以处理这种不规则运动。 作者提出AMF,根据UAV不同的运动模式切换不同的滤波器,当UAV一般平稳地飞行时,目标为普通运动模式;当UAV旋转或突然加速时,目标为非普通运动模式。 先用卡尔曼滤波基于IoU进行一次关联,如果匹配上的数量超过阈值,则判断当前为普通运动模式,否则为非平常运动模式。 对于非平常运动模式,观察到在一个局部区域内,相邻两帧物体之间的位置关系是基本保持不变的,使用local relation filter,设计了一个相对关系向量v,如图所示,定义为以当前目标为中心,半径为R的圆圈内距离最远的目标、距离最近的目标、两个目标之间的角度构成的向量。 对于非平常运动模式,首先对检测出的目标计算相对关系向量v并和embedding特征结合构建相似度矩阵,用该矩阵做匈牙利匹配。
- GBF loss 相比传统的行人跟踪,UAV视频更复杂,有类别不平衡问题和小尺寸目标检测问题。为此问题提出了GBF loss监督heatmap。GBF loss是在原本的交叉熵损失基础上增加了两个自适应的权重,用于类平衡的W_b和小目标的W_s,即GBF=W_bcdot W_s cdot L_{Hm},W_s给小尺寸物体更大的权重,计算方式为W_s=e^{-(wcdot h-mu)} 1,w和h分别为物体边界框的宽和高,mu=5为超参数。W_b根据梯度给正负样本不同的权重,计算方式为W_b=pos_w cdot Hm neg_w cdot (1-Hm),其中pos_w 和neg_w 分别代表正负样本的权重,由CVPR2021的方法 Equalization loss v2: A new gradient balance approach for long-tailed object detection 计算得到。
实验结果
使用VisDrone2019和UAVDT两个数据集进行实验。
VisDrone2019有训练集56个视频,验证集7个,测试集33个(test-challenge: 16,test-dev: 17),包括十个类别:pedestrian, person, car, van, bus, truck, motor, bicycle, awning-tricycle, and tricycle.本文只考虑了其中5类:car, bus, truck, pedestrian, and van.
UAVDT数据集用于机动车检测和跟踪,有训练集30个视频,测试集20个。包括3个类别:car, truck, and bus。本文只考虑car类别。 与SOTA的性能对比:
在VisDrone2019的验证集上进行的消融实验,baseline是FairMOT
可视化的结果如下,分别是UAV悬停、突然上升、突然左转:
运行效率:在UAV可以搭载的设备上(未指明型号),使用DLA34骨干网络,输入分辨率为1920x1080时,为12FPS。未能达到实时,这也是作者提出的本文的局限性。