【导读】图像抠图(Image Matting)是一个无论在工业界或者视觉研究领域都有非常重要价值的研究课题。从2000年开始,在进行图像抠图及相近研究问题的研究过程中,诞生了类似GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting等等对各计算机视觉以及计算机图形学研究都有深远影响的工作。在好莱坞的动作大片、迪士尼的动画巨作、Office以及Adobe PhotoShop的一些功能中都能够看到抠图算法的身影。
求解抠图问题需要我们对一张图像,分别求解出它的前景、背景以及alpha matte。alpha matte是我们常说的alpha通道,基于alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此alpha matte是和原图同大小的一个单通道图像,每个像素都对应于原RGB图像相同位置像素的alpha值。根据基本假设,对于一张RGB 图像,每个像素在R、G、B这三个通道上的强度(intensity)是由前景以及背景的凸组合构成的,即
,
这里
代指Image,
代表第
个像素下第
个通道的前景像素强度(pixel intensity),
代表第
个像素下第
个通道的背景像素强度(pixel intensity)。对于一张图片而言,由于我们只知道它的R、G、B三个通道的像素强度,因此对于每一个像素而言,我们有三个方程分别对应RGB三个通道,同时我们需要求解
,
以及
一共7个未知数。三个方程七个未知数,这是妥妥的未知数个数大于方程个数,解可以有无穷多个,属于经典的视觉研究中的反问题,难度非常的大。
怎样实现既高质量又无需用户交互的图像抠图一直是学术界和工业界在努力追求的目标,近日,随着CVPR2020论文的正式公开,有这样一篇文章,在自动抠图领域又向前走了一步,本篇文章我将为大家介绍CVPR2020中的这篇Image Matting论文,看看它提出来哪些新的解决方法:
论文标题
- 论文作者及团队:来自大连理工大学、大连大学、郑州大学,其中第一作者有两位,分别是博士生乔羽和硕士生刘宇豪。
- 代码地址:
- https://github.com/wukaoliu/CVPR2020-HAttMatting
- 论文链接:
- http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf
论文摘要
Abstract:现有的基于深度学习的抠图算法主要依靠高级语义特征来改进alpha mattes的整体结构。然而,我们认为从cnn中提取的高级语义对alpha感知会导致语义不平等,我们应该调节高级语义信息和低级外部特征,从而来改进前景细节。在本文中,我们提出了一种端到端分层的注意力抠图网络(HAttMatting),它可以在不增加额外输入的情况下从单张RGB图像中预测出更好的alpha抠图结构。具体地说,我们利用空间和通道相结合的注意力机制,以一种新颖的方式对外部结构和金字塔特征进行整合。这种混合注意机制可以从精细的边界和自适应的语义来感知alpha mattes。本文还引入了融合结构相似性(SSIM)、均方误差(MSE)和对抗损失所构成的混合损失函数,从而使得训练网络进一步改善整体前景结构。此外,我们构建了一个由59,600张训练图片和1000张测试图片(总计有646个distinct foreground alpha mattes)组成的大规模Image matting数据集,进一步提高了层次结构聚合模型的鲁棒性。大量的实验表明,该算法能够捕获复杂的前景结构,并且将单幅RGB图像作为输入的话,能达到SOTA的性能效果。
论文实现方法
论文中提出的图像抠图网络 HAttMatting 架构,以单幅RGB图像为输入,通过特征提取网络(FEM)提取多层特征。然后,将最深层的、语义丰富的特征输入到所提出的层级注意力机制(HAM)模块中,通过对高级语义进行自适应的特征筛选来实现Image Matting中 Class-Agnotisc 且 Matting-Adaptive 的特征,进而以此作为引导信息,对包含结构,纹理细节信息的低维特征执行空间注意力,以此达到对 Matting 边缘细节补全和优化的目的。
通过这种方式,HAttMatting 利用 FG 定位 boundary 优化,并辅之以对抗网络用于提升可视化效果,随之对网络的输出进行二倍上行采样,得到原始图像分辨率大小的Alpha Matte作为输出。
该方法的核心思想:在高级特征中消除冗余语义,在空间层面中消除无用的BG细节,然后将它们聚合在一起来预测准确的alpha mattes。为此,本文便采用通道注意结构来提取金字塔特征,同时利用空间注意机制来消除FG外的图像纹理细节。
Distinctions-646 数据集
上面的图片是我们的Distinctions-646数据集中的一个样例,该数据集包括646个单独的FG图像组成。我们将FG对象划分为596和50,然后按照DIM中的合成规则生成59,600张训练图像和1000张测试图像。
效果展示
论文作者采用了Image Matting领域通用的四个评价(SAD, MSE, Grad, Conn)指标对该方法分别在 Adobe 数据集[1]和自建的 Distinctions-646 上进行了定性评估。
在Adobe数据上对比的方法都是ImageMatting领域最新的模型,如Late fusion,Context-aware,Indexnet等。从结果上来看,该方法在无需Trimap的众多方法中达到SOTA,甚至在一些指标上超越了基于Trimap的一些方法。
在自身的Distinctions-646数据集上也对一些公开源码的Matting模型进行了重新训练和预测,其提出的HAttMatting模型也实现了SOTA的结果。
该方法在Adobe[1]的一千张测试集上,可以达到平均0.2s一张图片的处理速度,这对于今后模型迁移至视频流任务和实时性要求较高的任务也是一个很好的铺垫。
数据可视化
从在Adobe[1]数据的可视化结果来看,本文的方法在无需Trimap做辅助的情况下也可以达到一个很好的效果。
除了标准测试集上的结果展示外,研究人员从网络上搜索的一些自然图片和这些图片预测的AlphaMatte结果如上图所示。
Conclusion
在本文中,我们提出了一种分层的注意力抠图网络(HAttMatting),它可以从单张RGB图像中预测高质量的alpha mattes。HAttMatting采用通道注意力来提取的匹配语义信息,用空间注意机制来消除FG外的图像纹理细节。大量的实验表明,我们的分层结构聚合能够有效地从输入图像中提取出高水平和低水平的特征,并在不需要外部三映射的情况下实现高质量的alpha mattes。
在未来,我们将探索更有效的策略来改进我们的注意力机制,我们相信它可以更有效地聚合高级语义和外部信息,从而进一步提高我们的网络的泛化性和鲁棒性。后续,我们还会围绕通用物体快速高精准的抠图来展开研究,以此来进一步扩展问题,并缩小合成数据和自然图像之间的差异,提高应用价值。