作者来自日本福井大学和澳大利亚肯迪大学。
论文标题:Continuous Color Transfer 论文链接:https://arxiv.org/abs/2008.13626
引言:图像编辑研究方向有图像风格迁移,图像增强,图像补全,该论文是对图像中色彩进行迁移的一篇新作(色彩迁移是指将一副参考图像的颜色特征传递给另一幅目标图像,使目标图像具有与参考图像相似的色彩)
色彩迁移是当前计算机视觉、虚拟现实与可视化等领域的一个新兴的技术。为大家熟知的美图秀秀、激萌、美拍等一系列修图软件,它们其中的一些滤镜就用到了色彩迁移的相关技术。
论文贡献
该论文的贡献可以分为三部分分别如下所示:
• 作者提出了一种新的颜色(色彩)迁移方法,它是以一个实例图像和一个源图像为输入,实现连续的颜色传输。
• 作者引入了一个正则化项目的是更好的保留梯度信息,并在有限步内中求解出目标函数的梯度。
• 作者通过大量的实验表明,本文提出的方法要优于其它的基准技术。
核心思想
在该论文中作者提出在一个概率框架下的颜色迁移模型,并将其转化为一个参数估计问题。
在高斯混合模型(GMM)下,作者将传输图像与示例图像相关联,并将传输图像的颜色视为GMM的质心,并且使用期望最大化(EM)算法(Estep和M-step)进行优化。
为了更好地保留梯度信息,在M 步引入了一个基于拉普拉斯的正则化项,通过推导梯度下降算法来求解。
模型介绍
如下图所示为该论文的算法原理模型图。在GMM(高斯混合模型)的框架下建立颜色传递模型,然后采用EM(期望最大化优化不是似然估计)算法对所涉及的参数进行优化。
通俗的理解就是作者把颜色传递看作一个参数估计问题,为了更好地保存梯度信息,在目标函数中引入梯度正则化项。算法的细节部分会在下面一一进行展开介绍。
概率模型
给定由源图像初始化的传输结果和示例图像,像素集表示为和。每个像素包含由颜色空间定义的三个通道,其设计用于近似人类的视觉感知。
本文的核心思想是通过假设遵循GMM,作为高斯质心来模拟颜色分布。所以,论文中将的概率稠密函数可以表示为
其中,表示第个高斯分量,是和的维数。对于第个高斯分量,表示对角协方差矩阵,其中是单位矩阵,是值随变化的标量。
期望最大化优化
质心和协方差矩阵通过最小化以下负对数似然函数,可以得到:
采用期望最大化(EM)算法进行求解。EM算法有两个步骤分别是E-step和M-step,交替进行多次迭代以获得合适的估计值。
E-step:后验概率分布是基于贝叶斯定理和前一次迭代中更新的参数计算出来的,具体计算公式如下:
M-step:基于E-step中计算的后验,M-step是用于更新涉及的参数和,具体的公式如下所示:
其中这里的上标“new”表示用当前迭代中要估计的参数计算后验概率。
正则化项
作者受到拉普拉斯滤波器的启发,将拉普拉斯正则化项引入到优化的目标函数中,其中正则化项被定义为:
其中上式子中表示的是拉普拉斯算子的离散近似值,是原始源图像(即第一次EM迭代中的初始),上式又可以改写为:
其中,是拉普拉斯核窗口内相邻像素的集合,是离散拉普拉斯核的相应系数。如下图所示,可以极大地抑制伪影(模糊不清的地方,像素分辨率较低造成的)并能获得更平滑的颜色转换。
论文中将M-step的最终目标函数重写为:
求解和是一个棘手的问题,由上式可以得到关于的部分推导,如下偏导公式可知:
一看上面的公式就会觉得头大,作者为了简便计算量推导出了一个更加简单的梯度下降算法,则可以更新为如下所示:
其中,,并且是一个超参。论文中为了更好地控制梯度下降步骤作者将参数作为可控超参数。求解后,就需要更新,其中具体的更新形式如下所示:
为了读者方便,将论文中的算法流程重新进行了整理如下图所示,论文中的方法能够通过增加EM迭代次数来生成连续的颜色传递结果。
实验结果
作者采用了两个主要的指标来进行定量实验
一个是SSIM(结构相似性,该指标分数越高说明图像之间的相似度越大,在该论文中SSIM表示方法引起的伪影程度)
另一个是PSNR (峰值信噪比,表示的是图像之间的平均误差)。这两个指标都是用于评估输出图像与其对应的源图像之间的差异。
实验中,作者强调其方法可以生成一系列的颜色传递结果,但只是选择在最后一次迭代中使用结果来进行所有比较。
如下表所示论文中作者的方法平均优于其它方法,这表明在进行颜色转换时,对源图像结构的损伤较小。
另外,论文中的方法产生了更高的PSNR,这说明论文的颜色转移方法产生的全新信息较少。
下图展示了随EM迭代次数的增加的变化变化情况。可以看出,负对数似然在前20次迭代中急剧下降,并且随着迭代次数的增加趋于稳定(即收敛),这种迭代成本和速度是可以接受的。
可视化对比实验中作者采用了三个数据集,分别是house数据集,parrot数据集,flower2数据集,这些数据集都是公开可获取到的。
从可视化对比实验可以发现,其它的方法要么通过拉伸输入颜色直方图来实现的迁移,但更倾向于产生全局过饱和颜色;要么是通过找到一个合适的线性和非线性颜色映射,但会出现一些伪影。
而论文中的方法可以通过增加迭代次数来创建各种颜色转移结果,这为真实应用中的用户提供了灵活性,而且这些结果看起来很自然,显示了颜色迁移的渐变,而不需要建立任何颜色对应关系,对应的结果示意图如下2张图所示: