Domain Adaptive SiamRPN++ for Object Tracking in the Wild

摘要

得益于大规模的训练数据，基于Siamese的目标跟踪的最新进展已经在普通序列上取得了引人注目的结果。而基于Siamese的跟踪器假定训练和测试数据遵循相同的分布。假设有一组有雾或有雨的测试序列，不能保证在正常图像上训练的跟踪器在其他领域的数据上表现良好。训练数据和测试数据之间的域转移问题已经在目标检测和语义分割领域进行了讨论，但在视觉跟踪方面尚未进行研究。为此，在Siamese 的基础上，我们引入了域适配Siamese ，即DASiamRPN ，以提高跟踪器的跨域可移植性和鲁棒性。在

理论的启发下，提出了两个域适配模块：像素域适配(Pixel domain Adaptation, PDA)和语义域适配(Semantic domain Adaptation, SDA)。 PDA模块对模板的特征图和搜索区域图像进行对齐，消除了由于天气、光照等原因造成的像素级域漂移。 SDA模块将跟踪目标的出现特征表示对齐，以消除语义级的域漂移。 PDA和SDA模块通过对抗性训练学习领域分类器来减小领域差异。域分类器强制网络学习域不变的特征表示。在合成雾和红外序列两个不同域的标准数据集上进行了大量实验，验证了所提跟踪器的可移植性和域适应性。

1、简介

视觉目标跟踪是计算机视觉的基本问题之一，它的目的是在目标只有一个初始状态的情况下估计任意视觉目标的运动轨迹。通用视觉跟踪是一个有趣而具有挑战性的研究课题，具有广泛的应用前景，如视频监控、自动驾驶等。

在大规模标记良好的数据集和深度卷积神经网络的驱动下，最近的目标跟踪方法取得了优异的性能，特别是基于Siamese的跟踪器。基于Siamese的跟踪器通常通过从模板中学习到的特征表示与搜索区域之间的互相关联来学习一般的相似性映射，这些特征表示通过端到端大规模数据进行训练。

Problem.

在现实场景中，由于应用环境的多样性，如天气(雾/雨/云)、方式(RGB/TIR)和照明(白天/夜晚)等，跟踪算法面临着巨大的挑战。如图1所示，从不同的领域收集了Persons、Cars和Dogs的跟踪目标序列。一般情况下，跟踪器仅使用理想条件下采集的序列进行训练，由于训练数据和测试数据之间的域漂移，无法保证跟踪器对开放场景的适应性和可移植性。为了证明这一问题的存在，我们利用SiamRPN [23]对正常序列、热红外(TIR)序列和生成的fog序列进行了验证性实验。注意，SiamRPN 只接受了LaSOT数据集的训练。 (1)、我们首先在合成雾VOT2018和普通雾VOT2018上评估训练模型。 (2)、VOT2019-RGBT基准可以分为RGB序列和TIR序列，并对RGB序列和TIR序列进行训练模型评估。结果如图2所示，表明训练数据和测试数据之间的域分布差异确实会导致性能的显著退化。

该问题的解决方案之一是尽可能多地收集训练数据，以减轻域漂移的影响。 但是，边界框注释是费时费力的。因此，类似于域自适应检测，开发域自适应跟踪器来处理跨域差异造成的性能下降是合理和自然的。为了克服跨域跟踪的限制，提高泛化能力，我们引入了一种基于典型SiamRPN算法的域适配跟踪器。针对无监督域自适应场景，即源域标记良好而目标域未标记的情况，我们打算使域自适应跟踪器在源域和目标域上都表现良好，而不需要额外的标注成本。据我们所知，我们首先注意到视觉跟踪区域的域分布差异问题，并提出了一种域自适应跟踪器。

无监督域自适应的一般思想是通过显式学习不同域之间的域不变表示来弥合域间隙，并在目标域上实现小误差。我们的目标是最小化

，它通常用来测量源域和目标域之间的分布散度。基于贝叶斯公式和协变量位移假设，4.2节给出了跟踪的概率分析。受

理论和概率视角的启发，我们提出了两种层次的域适配跟踪器，即像素域适配(Pixel domain Adaptation, PDA)和语义域适配(Semantic domain Adaptation, SDA)。 PDA模块主要关注每个特征像素的域移，例如图像样式、光照等。而SDA模块则以域移引起的外观和类别变化来关注整体目标。通过对抗性的方式训练领域分类器和暹罗网络，PDA和SDA加强了卷积神经网络学习领域不变的特征映射和特征表示。本文的贡献可归纳如下:

我们首先将域分布差异问题引入视觉跟踪社区。验证性实验表明，域移导致了明显的性能下降。
我们提出像素域自适应(PDA)模块和语义域自适应(SDA)模块来学习域不变特征。 PDA实现了图像级源域与目标域的域分布对齐。 SDA主要关注领域分布对齐，而不是语义级的跟踪目标。
我们提出了一种生成雾图像和构建雾基准的新方案。采用单视图深度估计方法MegaDepth对深度图进行预测。受HazeRD的启发，我们利用RGB图像及其对应的深度预测图生成Foggy VOT2018、Foggy OTB100、Foggy UAV123和Foggy GOT-10k。

2、相关工作

Siamese Network for Tracking.

Siamese网络在视觉跟踪领域得到了广泛的关注。包括SINT和SiamFC在内的先驱工作都是用大规模的图像对进行训练，以端到端方式学习相似函数。 Li等人受Faster RCNN的启发，[24]将Siamese网络与Region Proposal network (RPN)相结合，将目标跟踪作为局部的一次性目标检测问题。为了开发更深入和更广泛的跟踪网络，SiamRPN 用ResNet-50取代了改良的AlexNet，以丰富提取的特征图。 SPM-tracker[39]设计了两级网络，即粗匹配阶段和精匹配阶段，可以实现较高的定位精度。 Cascade-RPN采用多级跟踪框架，三个RPN级联，利用不同级别的特征图。无锚跟踪器采用逐像素预测方式获得精确的边界框，提高计算效率。但是，大多数跟踪方法只在第一帧中生成目标的外观模型，在接下来的帧中没有更新外观模型。这些跟踪器的鲁棒性受到严重限制。 Bhat等人[3]提出了一种目标模型预测器对外观模型进行在线优化，能够同时利用目标和背景信息生成判别目标模型。然而，这些SOTA跟踪器没有考虑跨数据集的域转移，这无疑削弱了它们的适配性和可移植性。

Domain Adaptation

域适配被广泛用于跨域图像分类和检测，其目的是通过减少分布差异将知识从一个域转移到另一个域。一种常用的域适配方法是通过使从不同域提取的特征不可区分来弥合域间隙。近年来，一些方法在无监督域自适应方面取得了巨大的成功。早期的模型通过最大平均偏差(Maximum Mean deviation, MMD)、矩匹配等度量度量域的发散度来减小不同域之间的差异。近年来提出的基于对抗学习的方法，要么采用生成式对抗网络(GAN)，要么采用梯度倒转层(GRL)进行对抗训练。由GAN驱动的一些方法实现了图像-图像转换技术的像素级适配。 Ganin等提出了梯度反向层，该层在反向传播阶段反转梯度，实现特征表示与域分类器之间的极大极小优化，这是一个直观的域自适应问题。

3、回顾SiamRPN

为了更好地反映我们方法的性能改进，我们选择了从Epoch 11到19的SiamRPN 和DASiamRPN 训练模型，在Foggy VOT2018上进行评估，没有微调任何超参数。我们首先比较DASiamRPN 和DASiamRPN 的最佳结果。如表1所示，我们的DASiamRPN 可以获得0.231的最佳EAO分数，优于SiamRPN 0.211的最佳EAO分数，相对增益为9.5%。对于表1中每个epoch的定量结果，我们的方法可以超过SiamRPN 。

Foggy OTB100:

Foggy OTB100包含了从常用跟踪序列中收集的100个序列。评估基于两个指标:精度(P)和成功(S)得分。每个epoch结果见表2。 SiamRPN 的最佳成功分数是0.533。与SiamRPN 相比，我们的DASiamRPN 使用PDA和SDA模块实现了 2.1%的性能增益。在每个阶段，我们的大多数模型都超过了SiamRPN ，这证明了我们的方法的有效性。

Foggy UAV123:

UAV123由123个航拍视频序列组成，以精度(P)和成功(S)得分作为性能比较指标。所有结果如表3所示。我们方法的最佳成功分数是0.498。与SiamRPN 的最佳成功分数相比，我们可以获得2.3%的相对增益。对于各epoch模型的比较，我们的方法可以显著提高精度和成功分数。

7.3. Cross-domain Tracking from RGB to TIR

LSOTB-TIR:

LSOTB-TIR由1400个TIR序列组成，分为训练子集和测试子集。测试子集包含120个视频。我们选择LaSOT作为源域数据集，而选择LSOTBTIR训练子集作为目标域数据集。性能指标与OTB100相同。我们在LSOTB-TIR测试子集上评估了SiamRPN 和DASiamRPN 。各epoch结果见表4。与基准相比，我们的方法有了改进。

7.4. Ablation Study and Discussion

Effectiveness of PDA.

在表5中，我们评估了结合SiamRPN 和PDA模块的模型。显然，SiamRPN 加上PDA模块可以获得更好的性能。 PDA模块对模板和搜索区域的特征映射进行域对齐。 Siamese网络能够提取域不变的特征，使我们的跟踪器更适合复杂的应用环境。对于大多数epoch模型，只有PDA模块的DASiamRPN 也可以超过原始的SiamRPN 。

Effectiveness of SDA.

与前面提到的PDA类似，我们的DASiamRPN 仅使用SDA在Foggy VOT2018上进行了评估，以显示语义域自适应模块的效率。在表5中，SiamRPN 和SDA组合在不同时代的效果都优于SiamRPN 。所提出的SDA模块有助于最终的域自适应。

Visualization.

t-SNE是一种常用的特征降维方法。它非常适合将高维数据降维为2维或3维，便于可视化。提取的block 3特征图如图6所示。利用领域自适应模块的约束，混淆了DASiamRPN 提取的特征映射。跟踪结果可视化如图5所示。

Evaluation on Normal Sequences.

我们预计DASiamRPN 在原始VOT2018上不会导致任何性能下降。如图7所示，橙色的线表示DASiamRPN 的评价结果，说明我们的方法在普通序列和雾序列上都很好。

8、结论

在本文中，我们将跨不同数据集的域移问题引入视觉跟踪领域。为了证明区域分布的差异会导致性能下降，我们设计了验证性实验，包括合成雾序列和红外序列。然后，为了解决域漂移问题，将原始标注完整的正常序列设置为源域，而将完全未标注的模糊序列设置为目标域。基于

理论和概率视角，引入了像素域自适应和语义域自适应两个域自适应模块。

设计了两个域自适应模块，通过基于极大极小的对抗训练最小化数据集之间的域差异。大量实验表明，与SiamRPN 相比，该方法具有明显的性能改进，对跨域跟踪具有较好的适应性和可移植性。

智能推荐平台

0 人点赞