来源:快手技术团队
计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议上中稿最多的一次,研究成果数量的阶段性爆发标志着快手产学研合作从探索期逐步进入成熟期。
此次快手的中稿论文,涵盖了三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域,部分研究成果已应用于快手业务中,实用价值显著。本文将对部分论文成果进行解读介绍。
1、Camera-Space Hand Mesh Recovery via Semantic Aggregation and Adaptive 2D-1D Registration
论文链接:https://arxiv.org/abs/2103.02845
本文的主要贡献是利用语义聚合与多维度配准实现了相机空间的手部三维重建。针对虚拟交互任务,我们对手部三维重建进行了研究,称为 hand mesh recovery。mesh 包含 pose 和 shape 两层含义。人体本身是一种很强的先验条件,在这种条件下,2D-to-3D 任务是一个十分有价值的研究方向,其核心问题不再是进行某种 3D 测量,而是建立图像特征与几何形状以及人体运动学之间的关系。同时,由于生活中少有 multi-view image 或者 3D sensor,2D-to-3D 任务有较强的应用价值。
详细论文解读:
CVPR 2021 | 基于语义聚合与自适应2D-1D配准的手部三维重建,代码已开源
2、Regressive Domain Adaptation for Unsupervised Keypoint Detection
论文链接:https://arxiv.org/abs/2103.06175
深度网络的成功取决于大规模的标记数据,然而人工标注数据通常需要消耗大量的人力物力,域自适应(Domain Adaptation)的目标是让模型从有标记的源域迁移到没有标记的目标域,因此可以有效地降低标注数据的成本。将虚拟数据训练出的模型迁移到真实数据上,是一个很有前景的方向。
尽管行业上提出了不少域自适应的理论和算法,但大部分域自适应算法在回归问题上都不奏效。为了解决这个问题,我们首先可视化了模型的预测结果。结果显示,当无标记目标域上预测出错时,错误预测的位置并不是在像素空间均匀分布的。例如,当右脚脚踝关键点预测错误,则错误预测很可能位于左脚脚踝或者其他关键点处,而位于背景的可能性极小。这一发现说明,在概率意义上,模型的输出空间是稀疏的。如果能将输出空间从完整的像素空间缩小到仅有 K 个关键点的离散空间,则缩小回归问题与分类问题之间的差距将成为可能。
详细论文解读:
CVPR2021 | RegDA:针对无监督关键点检测的回归域自适应方法
3、Cycle4Completion: Unpaired Point Cloud Completion using Cycle Transformation with Missing Region Coding
论文链接:https://arxiv.org/abs/2103.07838
三维扫描设备在对三维物体进行扫描的过程中,受限于视角、遮挡和设备等各种因素,扫描出来的三维物体往往是不完整的。为了补全缺失的三维物体部分形状的研究——三维点云形状补全,便应运而生。本文的研究正是聚焦于这一问题,通过利用深度神经网络来训练和学习补全三维模型的方法。通常而言,这一类的研究方法是通过有监督(Supervised)训练的方法,然而在现实中,获取残缺三维模型的完整形状往往是非常困难的,使用有监督的方法会面临训练数据不足的问题。对此,该研究提出了使用无配对的形状补全方法(Unpair)。我们受启发于 CycleGAN 的无监督学习方法,提出了在不完整形状数据和完整形状数据之间,通过 cycle transformation 学习两个数据集的形状对应性,并结合非对称形状约束的方法,让网络学习出将不完整三维形状转变为完整三维形状的方法。在 3D-EPN 数据集上基于非配对训练的实验结果也证明了,该方法能够在完整和不完整形状的迁移学习过程中,充分学习到两类形状之间的对应性,并取得非配对形状补全方法中的 SOTA 水平。
4、PMP-Net: Point Cloud Completion by Learning Multi-step Point Moving Paths
论文链接:https://arxiv.org/abs/2012.03408
近年来,基于深度神经网络的三维点云形状补全研究受到了广泛的关注。在众多的三维点云形状补全的研究中,网络的结构设计遵从的是生成式网络框架。但是,三维点云作为一种离散数据,使用生成式网络通常很难在预测的过程中正确地构建出无序点集内在的拓扑结构和几何形状,导致在三维点云形状补全的任务中,网络不仅要预测残缺区域的完整几何信息,还要兼顾高质量的三维点云形状生成。
针对这一问题,本文提出了一种全新的点云补全网络 PMPNet(point moving path network),以绕过对完整点云形状的直接预测,采用将残缺点云形变成完整点云的方式来间接地预测残缺点云的完整形状。
详细论文解读:
2021CVPR | 快手联合清华提出PMP-Net提升三维点云补全形状质量
5、 Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion
论文链接:https://arxiv.org/abs/2103.07941
本文的算法主要集中在交互式视频目标分割(interactive VOS, iVOS )领域, 用户可以不断迭代交互优化目标分割结果。该技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。
文中提出了一种模块化的交互式视频目标分割算法,包括高度解耦的三个模块,分别是单帧图片交互分割(Interaction-to-mask)、帧间目标掩膜传播(Mask Propogation)和帧间差异感知融合(Difference-aware Fusion);这种高度解耦的特性让算法可以取得更好的性能以及更高的泛化性。经过单独训练的单帧图片交互分割模块可以让用户更便捷地获取其感兴趣目标的掩膜(Object Mask); 然后由 Mask Propogation 模块使用一种新颖的 Top-k 过滤策略将已获取的 Object Mask 前后传播,自动获取前后多帧中感兴趣目标的 Mask; 最后,Difference-aware Fusion 模块利用时空记忆器机制(Space-time Memory)融合每次交互后的 Object Mask,从而获取更精细的感兴趣目标分割结果。基于不同形式的用户交互(例如,涂抹,点击)模式,作者在 DAVIS 数据集上进行了定性和定量评估,实验表明该算法在需要较少的帧交互的情况下可以获得精确的分割结果,胜过当前最先进的算法。
详细论文解读:
CVPR2021系列(五)—— 解耦模块化交互式视频目标分割算法(MIVOS)
6、Deep Video Matting via Spatio-Temporal Alignment and Aggregation
论文链接:https://arxiv.org/abs/2104.11208
传统的抠图技术利用图像的色彩等底层特征来分离前景,但效果受制于底层特征的有限表达能力。随着深度学习的发展,深度神经网络被应用于抠图技术中,从深度网络提取的高层语义特征能够从复杂场景中准确区别前后背景,从而极大的提升了抠图效果,基于深度学习的图像抠图技术也因此成为主流的图像抠图技术。近年来,短视频的大热进一步催生了更复杂的视频抠图的需求,如何提升视频抠图效果也成为了时下的重要课题。
快手联合香港科技大学推出了新的视频抠图框架,这是第一个基于深度学习的视频抠图算法。该算法是一个两阶段算法,可以在仅提供少量关键帧的 Trimap 下,将 Trimap 传播到其他帧,并融合相邻帧的时域信息产生具有连续性和一致性的预测结果。该算法的两个阶段都不需要计算光流,为并行计算提供了便利。在深度视频抠图技术尚未被有效探索之际,该研究填补了这一技术空缺。考虑到深度视频算法通常需要大规模的训练数据,文中还提出了一个基于合成的大规模视频抠图数据集,用来支持后续的视频抠图技术研究。
详细论文解读:
CVPR2021系列(四)—— 深度视频抠图
7、 Group Collaborative Learning for Co-Salient Object Detection
论文链接:https://arxiv.org/abs/2104.01108
人类的视觉系统复杂且高效,不仅可以从单张图片中检测出最吸引人的物体,还能从一组图片中提取出图像中共现的物体。对于计算机来说,前一种能力被称为显著性物体检测,而后一种能力被称为协同显著性物体检测。显著性目标检测只需要对单张图片进行处理和检测,根据人眼的视觉注意机制找出图片中最具有信息量的区域和物体。而协同显著性物体检测需要对一组图片中的多张图片进行处理,通过探索多张相关图片之间的内在联系来发现图像中共同的显著目标。但是现有的协同显著性目标检测算法的辨别能力不足,无法区分不同类别的物体。
该研究提出了一种基于协作学习的协同显著性物体检测算法,在训练过程中加入了不同类别的条件信息,使得网络根据给定的类别条件对图片进行检测,大大提升了模型的辨别能力,进而提升了协同显著性物体检测的性能。
论文详细解读:
CVPR系列(三)—— 协同显著性物体检测
8、Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers
论文链接:https://arxiv.org/abs/2103.12340
由于物体的真实轮廓和遮挡边界之间通常没有区别,对高度重叠的对象进行分割是非常具有挑战性的。与之前的自顶向下的实例分割方法不同,本文提出遮挡感知下的双图层实例分割网络 BCNet,将图像中的感兴趣区域(Region of Interest,RoI)建模为两个重叠图层,其中顶部图层检测遮挡对象,而底图层推理被部分遮挡的目标物体。双图层结构的显式建模自然地将遮挡和被遮挡物体的边界解耦,并在 Mask 预测的同时考虑遮挡关系的相互影响。该研究在具有不同主干和网络层选择的 One-stage 和 Two-stage 目标检测器上验证了双层解耦的效果,显著改善了现有图像实例分割模型在处理复杂遮挡物体的表现,并在 COCO 和 KINS 数据集上均取得总体性能的大幅提升。
详细论文解读:
CVPR系列(二)—— 双图层实例分割,大幅提升遮挡处理性能
9、 Semantic Image Matting
论文链接:https://arxiv.org/abs/2104.08201
一张图像可以简单看成是由两部分组成,即前景和背景。而图像抠图(Image Matting),就是指从图像中提取出我们所感兴趣的前景目标,同时过滤掉背景部分。假设原始图像用 I 来表示,α为对应的 Alpha 通道,F 和 B 分别表示对应的前景和背景图像。那么一张 RGBA 通道的图像可以通过公式
得来。
不同于语义分割,抠图属于软分割(Soft Segmentation)之一,其难点在于如何处理精细的毛发结构以及具有不同透明度的前景物体。由于抠图是一个不适定问题(ill-posed),即在只给定 RGB 图像的情况下,Alpha、前景以及背景图层都是未知数,因此在前景物体未知的抠图场景中,通常用户会提供额外的输入告诉模型待求解的前景物体的大致位置和形状,如 Trimap 图。Trimap 图,又称三类别掩膜图,是由三个类别的组成的,前景的 Alpha 值为 1,背景的 Alpha 值为 0,未知区域通常为待求解区域。给定 RGB 图像和 Trimap 图的情况下,传统抠图算法通常基于采样(Sampling)或传播(Propagation)来求解前景物体的 Alpha,但其性能通常受制于传统图像特征的表达能力。随着深度卷积网络(CNN)的广泛应用,基于 CNN 框架的抠图算法日益成熟,抠图性能也有了质的飞跃。
详细论文解读:
CVPR2021系列(一)—— 语义图像抠图
10、Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection
论文链接:https://arxiv.org/abs/2103.09096
随着基于自编码器和生成对抗网络的图像生成技术的快速发展,以 deepfake 为代表的人脸伪造技术在娱乐大众的同时,也带来巨大的安全隐患。与之对应的,人脸伪造检测也逐渐成为计算机视觉领域研究的热点。
目前的检测方法大多数将伪造检测任务转化为二分类任务来处理,使用 softmax loss 监督网络在自然和篡改人脸的混合数据集上训练。但是如图所示,在 softmax loss 监督下学习到的特征本质上差异性不足,因为 softmax loss 没有明确的约束类内的紧凑性和类间的离散性。一些研究注意到了这个问题,尝试使用 triplet loss 提取差异性特征。但是,常规的度量学习方法通常无差别的约束特征类内的紧凑性,忽略不同类别类内分布的差异性。为了解决这个问题,来自中科大、快手的研究者提出了一种新的单中心损失 SCL (single-center loss)。
详细论文解读: