获取完整原文和代码,公众号回复:09020719542
论文地址: http://arxiv.org/pdf/2003.08429v3.pdf
代码: 公众号回复:09020719542
来源: 德国亚琛工业大学
论文名称:STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos
原文作者:Ali Athar
内容提要
现有的视频实例分割方法通常涉及多阶段管道,遵循跟踪检测范式,并将视频剪辑建模为图像序列。使用多个网络用于检测单个帧中的对象,然后随着时间的推移将这些检测关联起来。因此,这些方法通常是非端到端可训练的,并且高度适合于特定的任务。本文中,我们提出了一种不同的方法,可以非常方便的使用到不同的实例分割应用场景中。特别指出的是,我们将视频剪辑建模为一个单一的三维时空体,并提出了一种新颖的方法,可以在单个阶段中跨空间和时间进行目标分割和实力跟踪。我们围绕着时空嵌入的思想进行模型设计,这种思想被训练成在整个视频剪辑中,聚集那些属于特定对象实例的像素。为此,我们引入了增强时空嵌入特征表示的新型混合函数,以及可以推理时间上下文的单阶段、无提议的网络。我们的网络是端到端的训练,以学习时空嵌入以及这些嵌入聚类所需的参数,从而简化推理。我们的方法在多个数据集和任务中实现了最优的结果。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。