CVPR竞赛冠军方案：运动表达引导视频分割方法，代码及技术报告均已开源

在CVPR 2024 像素级视频理解（PVUW）挑战赛中，来自塔普智能（Tapall.ai）、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割（MeViS）赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计，致力于提高视频分割的准确性和效率。

相关技术报告和代码均已开源。

技术动机与挑战

随着视频内容的复杂性日益增加，传统的视频分割技术难以准确识别和跟踪视频中的动态对象。特别是在长视频和复杂场景中，如何根据自然语言的描述来精确分割特定对象，一直是计算机视觉领域的一大挑战。此前的研究多聚焦于短视频或静态属性较多的视频，未能充分利用视频的时间信息。

因此，MeViS基准应运而生，旨在通过视频的时间属性和自然语言的动态表达来指导视频对象的精确分割。这要求分割方法不仅关注对象的静态特征，如位置和外观，更重视动态变化，如运动和行为，从而为长视频分析提供新的解决方案。

这项技术的核心在于使用了基于Transformer的多模态视频分割模型，这是一种高度优化的、端到端的模型，能够有效利用对象序列与文本之间的交互，分析长视频中的动态内容。

为了提升目标感知能力，该团队首先在大规模数据集包含Ref-COCO、Ref-COCO 、Ref-COCOg和Ref-YouTube-VOS上预训练分割模型。

在此基础上，针对MeViS数据进行微调，提升模型对视频/语言动态信息的分析能力，以及对多目标语言描述的适应能力。经过两阶段训练，分割模型不仅能够关注单个视频帧内的信息，也能捕捉和利用视频帧之间的时间关系。

为缓解分割模型在处理长视频时的计算负担，研究团队提出了帧采样的推理方案。通过将输入视频采样成多个子集，并对每个子集分别进行语言指导的对象分割，从而优化了模型的运行效率和效果。

在采样过程中，使用间隔采样的方式，以确保每个子集都覆盖视频的全局时间上下文，实现语言信息与视频信息的充分交互。

通过该策略，模型能够在有限的计算资源下，有效地模拟并处理长时的视频序列，这对于现实应用中的视频分析尤为重要。

图 1：方法整体框架图。输入视频和描述目标对象的文本，方案首先将视频帧进行间隔采样，得到视频子集（图中以两个子集为例，分别使用绿色和蓝色框标识）。推理过程中，每个子集被独立分割，对结果进行拼接后得到最终的目标分割输出。

该方案在MeViS测试数据上达到了0.5447 的J&F准确率，排名第一。实验结果显示，即使在包含多个同类实例和长视频的复杂场景中，该方案也能有效识别和分割目标对象。

进一步的消融实验表明，通过合理的采样策略和精细的模型调整，能够进一步提升模型对时间信息的处理能力，改善长视频对象分割的准确性。

这些实验结果不仅验证了该方案在技术上的有效性，也为未来在动态视频理解和自然语言驱动的视频分析领域的研究提供了新的思路和方法。

图 2：方法在MeViS valid set上的可视化结果。百分比表示对应视频帧在视频中的位置。黄色和绿色的掩码，分别来自黄色和绿色文字引导的视频分割。

0 人点赞