大连理工IIAU Lab提出MS-APS:结合多源信息,对动/静预测器自动筛选的视频目标分割网络(ACM MM’21 Oral)

2021-08-24 16:38:24 浏览数 (2)

本文创新性的将视频中目标拆解为静态显著性与运动目标。在视频目标分割领域中,为了规避低质量光流对网络产生的不可逆影响,本文设计了一个光流质量评估网络,其能够同时实现对静态/运动目标预测器结果的自动筛选以及评估光流图中包含目标信息的有效程度.

论文链接:https://arxiv.org/pdf/2108.05076.pdf

本文创新性的将视频中目标拆解为静态显著性(static saliency)与运动目标(moving object)。在视频目标分割领域中,首次将RGB、Depth、Optical Flow、Static Saliency四种关于位置及外观的互补源进行融合来实现精准的运动目标分割。为了规避低质量光流对网络产生的不可逆影响,本文设计了一个光流质量评估网络,其能够同时实现对静态/运动目标预测器结果的自动筛选以及评估光流图中包含目标信息的有效程度。

工作动机:

现有的Zero-shot VOS方法主要可以分为基于帧间关系来计算co-attention的一系列工作,以及依靠光流来提供运动目标的位置及外观补充信息的一系列工作。

为了实现精准的视频目标分割,输入的信息源是很重要的。正如我们所知,一个视频序列是由一系列的静态图像组成的。人类观察对象的过程也是从静态到动态的。如果视频中的对象不再移动或移动非常缓慢,其将转换成一个静态显著目标分割问题。当场景中有明显的相对运动时,光流图能够包含目标、表面和边缘的一些模式。此外,深度图还可以为分割任务提供有用的互补信息,在RGB-D语义分割和RGB-D显著性目标分割任务中已被广泛验证。因此,RGB、光流、深度和静态显著性都可以为视频对象提供重要的位置和外观线索,每个源都具有互补性。然而,以往的ZVOS方法只关注RGB或RGB 光流,却忽视了其他信息源的重要性。

现有的基于光流的方法非常依赖于多个层次上的光流特征与RGB特征的融合。如果,前景(物体)明显偏移,光流图当然可以很好地捕捉物体,这对深度网络是十分有益的。相反,如果背景变化剧烈或前景几乎不移动,则所产生的光流往往具有大量的干扰信息或称之为噪声。如图所示,高质量的光流可以提供有效的引导,而低质量的光流很容易引起干扰。以往基于光流的方法并没有考虑到如何从根本上规避这一问题。我们给出的解决方案是:1.将视频目标分割分为静态显著性与运动目标分割 2.评估光流质量 3.高质量光流对应可靠的运动目标预测结果。从而自动完成动静预测的筛选。

网络框架:

本文采用了清晰明了的三阶段策略来完成对视频帧中运动和外观显著性目标的分割。

在第一阶段,为了能够获得对RGB图像的深度估计特征以及其静态显著性特征,我们采用了简单的uniencoder-bidecoder结构来同时完整Depth Estimation以及Static Salient Object Segmentation (SOS)(此过程在RGB-D SOD数据集进行训练 )。训练完成后,每一解码器支路的各层级特征将参与到第二阶段的运动目标分割(MOS)网络。

在第二阶段的多源融合网络主要由两个核心模块构成:interoceptive spatial attention module (ISAM)及feature purification module (FPM)。内感空间注意力模块(ISAM)可以自适应地感知每个源特征在其空间位置上的重要性,从而保留融合特征中特定于源的信息。然而,由于源于源之间仍然包含一些天然的相互干扰效应,为此,我们构建了一个特征提纯模块(FPM)来过滤掉不兼容的信息。注意,图中的

P^{i}_{comm}

P^{i}_{exclu}

虽然来源于相同的4种增强特征,但有着不同的卷积参数进行学习和优化。FPM背后的基本原理是,构建的减法范式以及对MOS使用的监督信号将迫使特征

P^{i}_{comm}

P^{i}_{exclu}

分别包含对四源融合的共同的和互斥的信息。在各级

P^{i}

都准备完成后,我们渐进地将它们结合,生成对运动目标的分割预测图。

在第三阶段,所提出的自动预测器筛选网络(APS)将根据对输入的两对(RGB SOS, RGB Optical Flow MOS)图的评分来判断SOS和MOS的预测结果哪个可信度更高。如图,我们将其建模为一个二分类问题。分类网络采用了轻量级的ResNet-34,以减少参数量,也更容易训练。我们用64输出通道的卷积替换编码器的第一层,以便它可以感知两个不同大小的输入。在第一层之后,我们通过Element-wise addition来集成双流特性输出。融合的特征图被输入到ImageNet预训练的ResNet-34,在一定程度上缓解过拟合问题。为了提高APS的判别能力,我们利用第一阶段与第二阶段对训练集的预测图与GT来计算MAE得分来动态生成此分类网络的真值。最后,采用二分类交叉熵作为损失函数。在动态二元分类真值的监督下,APS网络可以学习预测器选择规则,即得分越低,SOS的置信度越高,MOS、Optical Flow、RGB之间的匹配度越低。相反,得分越高意味着MOS的置信度越高,SOS和RGB之间的匹配程度较低。因此,APS网络实现了一种评估ZVOS光流中包含运动目标信息有效性的功能。

训练流程:

我们的模型是基于Pytorch实现的,并在一块RTX2080Ti GPU即可完成训练。输入源都被调整到384×384,所有三个阶段都使用batch=4进行训练。首先,我们使用一些RGB-D显著性数据集(DUT-RGBD,STERE,NJUD,NLPR,SIP)来训练第一阶段的多任务网络。在第一阶段的训练完成后,我们使用DAVIS-16训练集来训练第二阶段的多源融合网络。在此过程中,多任务网络的参数被冻结,我们只训练多源融合网络。我们在第一阶段和第二阶段总共使用了8,363个有标注的样本,包括视频数据(2,000 帧)和RGB-D SOD数据(6,300 图像)。之前的ZVOS工作:MATNet使用视频数据(14,000 帧)进行训练。AGS使用视频数据(8,500 帧)和RGB SOD数据(6,000 图像)进行训练。COSNet、AGNN和GateNet使用视频数据(2000 帧)和RGB SOD数据(15000 图像)。此外,我们认为适合训练第三阶段的自动预测筛选网络的数据应该是同时存在低质量和高质量光流的视频数据,而DAVIS16数据集中几乎所有的光流图都是高质量的,不适合这种训练。因此,我们使用最近两年提出的DAVSOD数据集中的4000 帧来训练APS。在推理过程中,我们使用阈值为0.5来生成二分类。简而言之,我们在训练阶段使用的带注释的数据集规模与以往ZVOS的方法相当。

实验结果:

本文提出的MS-APS网络在两个流行的ZVOS数据集:DAVIS-16和Youtube-Objects,都取得了当前最佳的精度。DAVIS-16数据集的特点是前景目标几乎都具有明显的移动而背景几乎静止,视频几乎是在设备保持静止的状态下录制的,因而能够获得关于运动目标的较高质量的光流图。而Youtube-Objects则充斥着大量的背景运动视频或静止的前景或仅在深度位置上纵向移动的目标,此类视频无疑会产生质量较差的光流。我们的方法在DAVIS-16上的卓越表现,证明了多源信息融合对运动目标分割的有效性。而在Youtube-Objects上特别突出的性能(超越第二名高达4.0 J-mean值),充分证明了对视频拆分静态与运动目标的必要性,以及对光流质量评估的重要性。我们还额外对FBMS这一数据集进行了性能测试(请参看原文)。

我们给出一些定性结果图。可以看到,每个源都提供了丰富的位置和外观信息。并且可以直观的看到,深度图可以补充额外的对比度信息。高质量的光流可以提供清晰的运动目标信息。值得注意的是,这些源都不能主导最终的预测,必须集成所有的源的特征,以实现高精度的视频目标分割。

我们首先在DAVIS-16上对多源信息的有效性进行了详细的ablation study。可以看到,相比于单源RGB输入,整合其余任一源的特征都能显著提升目标分割性能。最终,四源整合的特征能进一步提升性能。接下来,分别验证了ISAM以及FPM在多源融合时的有效性。我们也给出了对FPM有效性的定性特征可视化图。可以看到,

P^{i}_{comm}

中的运动物体受到了许多背景信息的干扰,而

P^{i}_{exclu}

则可以很好地感知背景区域。二者特征在FPM中的减性约束事实上是通过不同的参数构建了一种信息约束,从而保证了

P^{i}

可以专注于运动的目标。

接下来详细的验证自动预测器筛选网络(APS)的有效性。我们同时给出其在DAVIS-16与Youtube-Objects的性能。可以看到,在Youtube-Objects数据集,单独采用SOS甚至高于MOS的预测结果,这说明了这一数据集确实存在较多的低质量光流或者静态目标。添加APS后能明显的高于SOS与MOS二者中的任一个,这表明了APS确实学习到了对静态或运动目标预测器可信度的判别能力。而在DAVIS-16中,SOS的性能则显著低于MOS的预测,这说明了DAVIS-16数据集几乎具有明显的运动目标以及能够生成高质量的光流图。通过添加APS后,在DAVIS-16的J-mean精度仅仅降低了0.1,这说明了APS的分类精度足够高。为了更直观地显示APS的有效性,我们可视化了在不同质量的光流图下的一系列源输入和预测结果图。可以看出,APS对低质量光流视频序列会给予较低评分,对高质量光流视频序列则会给出较高的得分。

总结:

1.本文是第一个旨在利用多源信息去实现静态/运动目标分割的工作。

2.本文是第一个旨在评估光流质量(包含运动目标有效性信息)的工作。

3.本文是第一个实现自动地对静态/运动预测器筛选的工作。

代码后续开源,请关注:https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS

更多相关工作,请关注个人主页:https://xiaoqi-zhao-dlut.github.io

如果觉得有用,就请分享到朋友圈吧!

觉得有用麻烦给个在看啦~

0 人点赞