ECCV2020 | Ocean:目标感知的Anchor-free实时跟踪器,速度70+FPS!刚开源

2020-07-15 14:42:24 浏览数 (1)

Ocean:目标感知的Anchor-free实时跟踪器,表现SOTA!

性能优于SiamRPN 、DiMP等网络,速度可高达70 FPS!

论文链接:https://arxiv.org/pdf/2006.10721.pdf

代码刚刚开源!

https://github.com/researchmm/TracKit

作者团队:中科院&微软

1

摘要

基于anchor的Siamese跟踪器在准确性方面取得了显著的进步,但是进一步的改进却受到滞后跟踪鲁棒性的限制。我们发现根本原因是:

基于anchor的方法中的回归网络仅在正锚框中训练(即IoU≥0.6),该机制使得难以细化与目标对象重叠的anchor。

在本文中,我们提出了一个新颖的目标感知的anchor-free网络来解决这个问题:

  • 首先,不完全参考anchor,而是以anchor-free方式直接预测目标对象的位置和比例。由于groundtruth框中的每个像素均受过良好训练,因此跟踪器能够在推理过程中纠正目标对象的不精确预测。
  • 其次,引入特征对齐模块,以从预测的边界框中学习对象感知特征。目标感知功能可以进一步有助于目标对象和背景的分类。
  • 此外,还提出了一种基于anchor-free模型的新型跟踪框架。

实验表明,我们的anchor-free跟踪器在五个基准上达到了最先进的性能,包括VOT-2018,VOT-2019,OTB-100,GOT-10k和LaSOT。

《Ocean: Object-aware Anchor-free Tracking》 其ECCV 2020论文名为:《Learning Object-aware Anchor-free Networks for Real-time Object Tracking》

2

主要思路

Siamese跟踪器以其均衡的速度和精度引起了人们的广泛关注。

比较具有开创性的工作例如SINT[35]和SiamFC[1]使用Siamese网络学习目标和候选图像补丁之间的相似性度量,从而将跟踪建模为目标在整个图像上的搜索问题。大量的Siamese跟踪器被提出并取得了很好的效果。其中,被称为SiamRPN[22]的Siamese区域候选网络是其中的最具代表性的作品。SiamRPN引入了区域建议网络RPN[31],该网络由前景背景估计的分类网络和锚框优化的回归网络组成,即,学习预定义锚框的2D偏移量。这种基于锚的跟踪器在跟踪精度方面显示出了巨大的潜力。

  • 缺点:

由于回归网络只训练在正锚盒上(即IoU≥0.6),很难细化与目标对象重叠较小的锚点。这将导致跟踪失败,特别是当分类结果不可靠时。

例如,由于跟踪误差的积累,对目标位置的预测可能变得不可靠。由于之前在训练集中看不到这种弱预测,回归网络无法对其进行修正。作为一个序列,跟踪器在随后的帧中逐渐漂移。

  • 问题的提出:

人们很自然会提出这样一个问题:我们能设计一个具有纠正不准确预测能力的边界盒回归模型吗?

  • 解决办法:

在这项工作中,我们证明了答案是肯定的:

我们的目标感知anchor-free跟踪器直接回归目标对象在视频帧中的位置,而不是预测锚盒的小偏移量!更具体地说,提出的跟踪器由两个部分组成:目标感知分类网络和边界盒回归网络。

分类网络负责确定一个区域是属于前景还是背景,而回归网络则预测目标对象内的每个像素到groundtruth边界盒的四个边的距离。由于groundtruth中的每个像素都经过了良好的训练,即使只有一小块区域被识别为前景,回归网络也能够定位目标对象。最终,在推理过程中,跟踪器能够修正与目标物体重叠较小的弱预测。

当回归网络预测一个更准确的边界盒时(如校正弱的预测),相应的特征反过来有助于前景和背景的分类。我们使用预测的边界框作为参照来学习用于分类的对象感知特征。更具体地说,我们介绍了一个特征对齐模块,它包含一个二维空间变换,以对齐特征采样位置与预测的边界盒(即候选对象的区域)。该模块保证了采样在预测区域内,适应了目标尺度和位置的变化。因此,所学习的特征在分类时更具鉴别性和可靠性。

3

具体实现

3.1 Object-aware Anchor-Free Networks

  • Anchor-free回归网络

为了解决当预测的边界盒变得不可靠时,跟踪器会快速漂移的问题,我们引入了一种新的无锚回归来进行视觉跟踪。它将groundtruth边界盒中的所有像素都作为训练样本。其核心思想是估计目标对象内每个像素到groundtruth边界盒的四个边的距离。其中,设

B=(x0,y0,x1,y1)∈r4

表示目标对象的groundtruth包围盒的左上角和右下角。如果一个像素的坐标(x,y)落入groundtruth box B,则将其视为回归样本。因此,训练样本的labels T∗= (l∗,t∗,r∗,b∗)计算为:

(a)回归:groundtruth box中的像素,即红色区域,在训练中被标记为正样本。 (b)正则区分类:靠近目标中心的像素,即红色区域,被标记为正样本。紫色点表示分数图中某个位置的采样位置。 (c)对象感知分类:预测盒和groundtruth盒的IoU,即训练时使用带有红斜线的区域作为标签。青色点代表提取对象感知特征的采样位置。黄色箭头表示空间变换产生的偏移量。

回归网络的学习是通过4个信道数为256的3×3卷积层,再通过1个信道数为4的3×3层来预测距离。这种无锚回归算法在训练时将groundtruth box中的所有像素都考虑在内,即使只识别出一个很小的区域作为前景,也可以预测目标物体的尺度。因此,跟踪器能够在一定程度上修正推理过程中的弱预测。

  • Object-aware Classification Network

在之前的Siamese跟踪方法[1,21,22]中,分类置信度是通过从特征图中固定规则区域采样的特征来估计的,例如。,图2(b)中的紫色点。该采样特征描述了图像中固定的局部区域,不能随对象尺度的变化而缩放。结果表明,分类置信度在复杂背景下区分目标对象时不可靠。

为了解决这个问题,我们提出了一个特征对齐模块来学习用于分类的对象感知特征。对于分类图中的每个位置(dx,dy),都有一个回归网络预测的对应的对象包围框M= (mx,my,mw,mh),其中mx和my表示盒子中心,mw和mh表示盒子的宽度和高度。我们的目标是通过从相应候选区域M中采样特征来估计每个位置(dx,dy)的分类置信度。核大小为k×k的标准二维卷积样本特征使用固定的网格:

因此,我们提出在规则采样网格G上加一个空间变换T(图2C中的黄色箭头),将固定区域的采样位置转换为预测区域M。

采样位置的转换可以适应视频帧中预测边界盒的变化。因此,所提取的目标感知特征对目标尺度的变化具有较强的鲁棒性,有利于跟踪过程中的特征匹配。此外,对象感知特征提供了候选目标的全局描述,使目标和背景的区分更加可靠。

  • Loss Function

其中回归loss:

分类loss:

规则区域loss:

3.2 object-aware Anchor-Free Tracking

  • Framework

特征提取:

该方法遵循Siamese跟踪器[1]的架构,以图像对作为输入,即示例图像和候选搜索图像。示例图像表示要跟踪的目标,即第一帧以目标对象为中心的图像patch,而搜索图像通常较大,代表后续视频帧的搜索区域。两个输入都由修改后的ResNet-50[13]主干处理,然后产生两个特征图。更具体地说,我们去掉了标准ResNet-50[13]的最后一个阶段,只保留了前四个阶段作为主干。前三个阶段的结构与最初的ResNet-50相同。在第四阶段,将下采样单元的卷积步幅由2修改为1,增加feature map的空间大小,同时将所有的3×3卷积都进行扩充,步幅扩大为2,增加接受野。这些修改提高了输出特征的分辨率,从而提高了特征在目标定位中的能力。

特征组合:

将提取的样本特征与搜索图像相结合,生成相应的相似度特征,用于后续的目标定位。与之前在多尺度特征上执行cross-correlationon的工作不同,我们的方法只在单一尺度上执行,即backbone的最后阶段。我们将单尺度特征通过三个平行扩张的卷积层[48],再将相关特征逐点求和融合,如图3(特征组合)所示。

目标定位:

这一步使用所提出的网络来定位搜索图像中的目标。分类网络预测的两个概率po和pr通过权重ω进行加权:

我们对尺度变化施加惩罚来抑制物体大小和高宽比的大变化,如下所示:

最终的目标分类概率计算

ˆpcl =α·pcl

  • Integrating Online Update

我们进一步为离线算法配置了一个在线更新模型。引入了一个在线分支来捕捉目标对象在跟踪过程中的外观变化。如图3(底部)所示,在线分支继承骨干网前三个阶段的结构和参数,即,修改ResNet-50[13]。第四阶段保持主干结构不变,但通过[2]中提出的预训练策略获得其初始参数。在模型更新方面,采用快速共轭算法[2]对推理过程中的在线分支进行训练。将在线分支和分类分支估计的前景得分图加权为:

4

实验结果

0 人点赞