机器之心专栏
INRIA、MIT等
近日,来自 MIT 等机构研究者提出了 TransCenter,这是首个用于预测密集目标点热力图 (dense center heatmap)Transformer MOT 架构。在相同训练策略和同等数据下,TransCenter 在两个标准 MOT 数据集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。
自从引入 Transformer 以来,其在 NLP 任务中就已被证明拥有卓越的性能。计算机视觉也不例外,近些年,Transformer 的使用在计算机视觉领域也变得非常流行。例如,Carian et al. 的 DETR 目标检测网络提出利用稀疏查询(sparse queries)的方式来搜索图像中的物体。同期工作也大多从 DETR 出发,保留稀疏查询,将 DETR 简单推广到多目标跟踪(MOT)任务中。
尽管如此,多目标跟踪 (MOT)仍表现出与 Transformer 某种程度上的不兼容:即标准的目标框(bounding box)表示方法配合稀疏查询对于学习基于 Transformer 的 MOT 任务不是一种最优的方案。
受近期基于锚点(point-based)MOT 方法的启发,来自 MIT 等机构的研究提出 TransCenter,这是首个用于预测密集目标点热力图 (dense center heatmap)Transformer MOT 架构。
具体而言,该研究提出利用像素级密集多尺度查询(dense pixel-level multi-scale queries)配合 Transfromer 强大的全局表示能力,全局且充足地检测和跟踪目标中心(center tracking)。相同训练策略和同等数据下,TransCenter 在两个标准 MOT 数据集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。特别地,在 MOT20 上,用更少的训练数据,该研究甚至超越了基于锚点的 MOT 以前 SOTA 方法。另外,与从 DETR 到 MOT 的简单推广相比,实验研究也证明了所提出的架构表现出明显的性能和架构优势。
- 论文:https://arxiv.org/abs/2103.15145
- 代码:https://github.com/yihongXU/TransCenter
出发点
1. 目标框(bounding box)的表示方式,在极度稠密的场景下会带来具有歧义且高度重叠的目标位置表示。解决目标框的歧义,终极的方式是提供稠密的目标标记 (例如分割掩码,segmentation mask)。但是这种标记往往需要消耗大量的人力成本,而且在 MOT 任务上,尚没有此类可用的大规模数据集。近期,基于锚点的 MOT 方法大大地缓解目标框带来的歧义且表现出 SOTA 的性能,如例 1 所示。
例 1:在稠密数据集(MOT20)里,锚点能更好地表示目标的位置。
2. 目前多目标跟踪(MOT)大多基于先检测后跟踪的方式。所以,准确却不遗漏的检测出目标是提高 MOT 性能的关键因素之一。DETR 利用独立于图像且随机初始化的稀疏查询(sparse queries)来检测目标,这往往会带来漏检(false negatives)。
3. 另外,简单地提高稀疏查询数目(例如从默认的 100 个查询提高到与输出图像像素同等的查询数目)是有风险且不可行的,因为它会带来充满噪声的误检(false positives)。并且,因为随机初始化的查询不依赖于图像,每一次改变查询数目,都需要重新微调训练(fine-tune)网络。
4. 因为查询(queries)是独立于图像的,DETR 在训练的每一步,都需要用一对一的匹配算法(例如匈牙利算法,Hungarian Algorithm)去匹配物体真值位置和网络预测位置。匹配算法十分耗时,而且由于目标框带来的歧义,匹配结果往往不是最优。
5. 最后,以往基于锚点的 MOT 方法使用传统的 CNN 网络,其局部性导致对于人体点的预测往往不是全局的。换言之,一个目标中心点的预测并没有考虑所有目标中心点位置。这种相对独立的局部预测方式可能会带来漏检或者误检。
创新思路
基于以上问题,该研究重新精心设计了一种基于 Transformer 的 MOT 网络架构。具体来说,他们抛弃了以往从稀疏查询输出稀疏目标框的方式,提出采用像素级密集多尺度查询(dense pixel-level multi-scale queries)预测密集目标锚(中心)点热力图的方式。这种密集表示方式有多种优势:
1. 大大缓解了目标框重叠的问题而且多尺度的查询能更好地检测并跟踪不同尺寸的目标。
2. 因为该研究的密集查询是从图像特征图获得的,与图像高度相关,所以查询密度自适应于输入图像的大小。换言之,随着输入图像的大小变化,查询数目自动变化。无需人工重新调整查询数目并微调。
3. 另外,TransCenter 在训练过程中不在需要繁琐的匈牙利匹配(Hungarian Algorithm)算法。这是因为一个查询对应一个像素,而一个像素唯一地表示一个物体中心或者背景,所以查询和物体中心真值天然地匹配。在训练过程中,只需要简单地回归中心位置。
4. 更重要的是,充足的查询数目能保证充足的检测。同时,依赖于图像的像素级别查询(image-dependent pixel-level queries)表现出更干净的检测和跟踪结果。
5. 最后,因为 Transformer 的全局特征特性,TransCenter 能全局地预测各个目标的中心点并且将它们在时域上关联起来,因而表现出更高的 FP-FN 平衡,输出更充足且更干净的 MOT 结果。
得益于以上的设计优点,该研究在两个基准(benchmarks)中均取得了 SOTA 的结果。
网络结构及方法
TransCenter 整体架构
TransCenter 的整体架构如图所示,该研究采用经典的 encoder-decoder 结构。由于密集查询(Dense Queries)的引入,研究者在编码器(Transformer Decoder)和解码器 (Transformer Decoder)上均采用更高效的 Deformable Transformer (zhu et al.) 以解决密集查询带来的训练内存和运行效率的限制。
TransCenter 网络的输入为 t-1 和 t 时刻的图像(640x1088),它们会预先通过一个 ResNet-50 提取多尺度特征,然后该多尺度会被输入到 Transformer 编码器。编码器的作用是全局地编码输入特征图,并乘以注意力图,从而得到多尺度带注意力的特征图,称为 memories,分别标记为M_t-1 和M_t。值得注意的是,提取 t-1 和 t 时刻图像信息的网络是共享权重的。
紧接这,t 时刻的多尺度带注意力特征图 M_t 会被用于产生两组不同的多尺度密集查询:多尺度密集检测查询 (dense multi-scale detection queries)以及多尺度密集跟踪查询(dense multi-scale tracking queries), 分别标记为 DQ_t 和 TQ_t。两种密集查询的产生依赖于查询学习网络(QLN),后者由 2 个具有 ReLU 激活和跳过连接(skip connection)的全连接层组成。
在解码器端,该研究认为检测和跟踪是两个不同的任务,因此所需的注意力也不同。对于检测任务,网络需要根据多尺度密集检测查询 DQ_t,在多尺度带注意力特征图 M_t 里检测出所有目标。而对于跟踪,根据从 t 时刻多尺度密集跟踪查询 TQ_t 得到的目标位置和特征,我们则需要在 t-1 时刻的多尺度带注意力特征图 M_t-1 内找到对应的 t-1 时刻目标。出于这一考量以及实验验证,该研究采用一种并行的双解码器(dual decoder)结构, 分别处理检测和跟踪两个任务(Transformer Detection/Tracking Decoder)。两个并行的解码器分别输出检测特征和跟踪特征,分别记为 DF_t 和 TF_t。前者用于估计目标大小 S_t 和目标中心热力图 C_t,两者结合 t-1 时刻的目标中心热力图一起用于估计跟踪位移 T_t。最后,网络训练的损失函数和前期基于锚点的 MOT 方法类似,更多细节,请参考论文。
SOTA 比较
该研究分别在两个基准(MOT7 和 MOT20)上与 SOTA 方法比较。值得注意的是,为了公平地比较,研究者将 SOTA 方法根据公共检测框(public detections)和自带检测框(private detections)进行分组,可以看到许多方法只在其中一种条件下进行测试。另外,该研究还根据不同数量的训练数据,将不同方法以不同颜色标记(橘色采用一组额外的训练数据,绿色只是用官方的数据,红色采用 5 组额外数据)。
由结果可以得出,与同期 Transformer MOT 的工作相比,在同等数据量以及同样的训练策略下,TransCenter 展现出明显的性能优势。而对比前期以锚点为基础的 MOT 方法,TransCenter 同样取得更优的结果。这也验证了 TransCenter 网络设计的有效性。
最后,对比已发表的 SOTA 方法,该研究以明显的性能优势取得了新的 SOTA 结果。