CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型

2023-10-28 16:44:43 浏览数 (1)

来源:CVPR 2023 论文题目:Paint by Example: Exemplar-based Image Editing with Diffusion Models 论文链接:https://arxiv.org/abs/2211.13227 论文作者:Binxin Yang,Shuyang Gu,Bo Zhang,Ting Zhang,Xuejin Chen,Xiaoyan Sun,Dong Chen,Fang Wen 内容整理:黄海涛 近年来,语言引导的图像编辑取得了很大的成功。在本文中,作者探索了模板引导的图像编辑,以实现更精确的控制。本文通过利用自监督训练来解开和重新组织源图像和模板来实现这一目标。然而,简单的方法会导致明显的融合伪影。本文仔细分析了这个问题,并提出了内容瓶颈和强增强以避免直接复制和粘贴模板图像的简单解决方案。同时,为了确保编辑过程的可控性,作者为模板图像设计了任意形状的遮罩,并利用无分类器的引导来增加与模板图像的相似性。整个框架只需进行一次扩散模型的前向传递,无需任何迭代优化。本文证明了作者的方法在野外图像上具有令人印象深刻的性能,并能以高保真度实现可控编辑。

简介

由于社交媒体平台的进步,照片的创意编辑成为了普遍需求。基于人工智能的技术极大地降低了炫酷图像编辑的门槛,不再需要专业软件和耗时的手动操作。深度神经网络通过学习丰富的配对数据,可以产生令人印象深刻的结果,如图像修复、构图、上色和美化。然而,语义图像编辑仍然具有挑战性,它旨在操纵图像内容的高级语义并保持图像的真实性。目前,大规模语言图像模型能够以文本提示为指导实现图像操作,但是详细的文本描述常常不够准确,很难描述细粒度的物体外观。因此,需要开发一种更直观的方法来方便新手和非母语使用者进行精细的图像编辑。

本文提出了一种基于示例的图像编辑方法,根据用户提供的示例图像或数据库中的图像,可以对图像内容进行准确的语义操作。与语言引导模型不同,本文训练一个以示例图像为条件的扩散模型。为了解决缺乏三元组训练对的问题,利用生成先验知识作为初始化,并引入内容瓶颈和激进的增强来提高模型的性能。此外本文使用不规则的随机遮罩和无分类器引导来改进方法的可编辑性和图像质量。本文方法在语义图像组合方面展现出显著的优势,能够实现图像内容的细粒度控制和无缝融合。

综上所述,本文的贡献如下:

  • 提出了一种新的图像编辑方法“按示例绘图”,可以根据示例图像在语义上改变图像内容。该方法提供了细粒度的控制并易于使用。
  • 通过自监督训练方式解决了缺乏训练三元组的问题,并提出了一组技术来应对模型退化的挑战。
  • 在野外图像编辑中,本文的方法在定量指标和主观评估上表现出色,相比现有方法具有明显的优势。

方法

本文的目标是基于示例的图像编辑,通过自动将参考图像(可以是从数据库中检索到的或用户提供的)与源图像合并,使合并后的图像看起来合理且逼真。尽管基于文本的图像编辑在最近取得了显著的成功,但仍然很难用单纯的文字描述来表达复杂且多样的想法。而另一方面,图像可以作为传达人们意图的更好选择,正如谚语所说:“百闻不如一见”。

在形式上,将源图像表示为

x_s in R^{H times W times3}

,其中H和W分别表示宽度和高度。编辑区域可以是矩形或不规则形状(至少连通),并表示为二进制掩码

min{0,1}^{H times W}

,其中值为1指定了

x_s

中可编辑的位置。给定包含所需物体的参考图像

x_rin R^{H^{'}times W^{'} times3}

,我们的目标是从

{x_s,x_r,m}

中合成一幅图像

y

,以使

m = 0

的区域尽可能与源图像

x_s

保持一致,而

m = 1

的区域描绘的物体与参考图像

x_r

类似并且和谐地融合。

这个任务非常具有挑战性和复杂性,因为它隐含了几个非平凡的步骤。首先,模型需要理解参考图像中的物体,捕捉其形状和纹理,同时忽略背景噪声。其次,关键是能够合成一个适合源图像的物体的转换视图(不同的姿势,不同的尺寸,不同的光照等)。再次,模型需要填补物体周围的区域,生成一个逼真的照片,使融合边界的过渡平滑。最后,参考图像的分辨率可能低于编辑区域,模型在过程中应该涉及超分辨率处理。

模型设计

内容瓶颈(Content Bottleneck)

压缩表示

本文重新分析了文本条件和图像条件之间的差异。对于文本条件,由于文本本身就是一种语义信号,模型自然而然地被迫学习语义。而对于图像条件,很容易只记住内容而不理解背景信息,并得出平凡的解决方案,直接复制内容。为了避免这种情况,作者希望通过压缩参考图像的信息来增加重建遮罩区域的难度。具体而言,作者仅使用预训练的CLIP图像编码器中的类别标记作为条件,将参考图像从空间尺寸为224×224×3压缩为维度为1024的一维向量。

这种高度压缩的表示往往会忽略高频细节,同时保留语义信息。它迫使网络理解参考内容,并防止生成器直接复制粘贴以达到训练中的最佳结果。考虑到表达能力,本文添加了几个额外的全连接(FC)层来解码特征,并通过交叉注意力将其注入扩散过程中。

图像先验

为了进一步避免直接记住参考图像的解决方案,作者利用一个经过良好训练的扩散模型作为强大的图像先验进行初始化。具体而言,作者采用了一个文本到图像生成模型——稳定扩散(Stable Diffusion),考虑了两个主要原因。首先,它具有生成高质量野外图像的强大能力,这得益于其潜在空间中的任何向量都会生成一个合理的图像的特性。其次,作者使用预训练的CLIP模型提取语言信息,它与作者采用的CLIP图像嵌入具有相似的表示形式,因此可以作为很好的初始化。

强化数据增强(Strong Augmentation)

自监督训练的另一个潜在问题是训练和测试之间的域差距。训练和测试之间的不匹配源于两个方面。

参考图像增强

第一个不匹配之处在于在训练过程中,参考图像

x_r

是从源图像

x_s

中派生出来的,这在测试场景中几乎不会发生。为了减小差距,作者对参考图像采用多种数据增强技术(包括翻转、旋转、模糊和弹性变形),以消除与源图像的关联。作者将这些数据增强称为A。形式上,输入到扩散模型的条件表示为:

c=MLP(CLIP(A(x_r))) quad(1)

形状增强

另一方面,来自边界框的掩码区域

m

确保参考图像包含整个对象。因此,生成器学习尽可能完整地填充对象。然而,这在实际场景中可能不成立。为了解决这个问题,在训练中作者根据边界框生成一个任意形状的掩码。具体而言,对于边界框的每条边,先构造一个贝塞尔曲线来拟合它,然后在该曲线上均匀采样20个点,并随机添加1-5个像素的偏移量。最后,将这些点按顺序用直线连接起来形成任意形状的掩码。掩码m上的随机扭曲打破了归纳偏差,减小了训练和测试之间的差距。

控制相似度程度(Control the similarity degree)

为了控制编辑区域与参考图像之间的相似度,作者发现无分类器的采样策略是一个强大的工具。之前的研究发现,无分类器引导实际上是先验约束和后验约束的结合。

log p(y_t|c) (s-1)log p(c|y_t) propto logp(y_t) s(logp(y_t|c)-logp(y_t))quad(2)

其中,

s

表示无分类器引导的比例尺。它也可以被视为控制生成图像与参考图像相似度的比例尺。较大的比例尺

s

表示融合结果更多地依赖于条件参考输入。在训练过程中用可学习的向量

v

替换了20%的参考条件。该项目的目标是在固定的条件输入

p(y_t)

的帮助下对

p(y_t|v)

进行建模。在推断阶段,每个去噪步骤使用修改后的预测值:

epsilon ˜_theta(y_t,c)=epsilon_theta(y_t,v) s(epsilon_theta(y_t,c)-epsilon_theta(y_t,v))quad(3)

方法的整体框架如图1所示

图1

实验

比较结果

定性分析

作者在图2中提供了这些方法的定性比较。文本引导的混合扩散方法能够在所需区域生成对象,但它们不真实且与源图像不兼容。另一种基于文本的方法稳定扩散能够生成更真实的结果,但由于文本信息的有限表示,仍然无法保留参考图像的特征。同时,基于图像引导的混合扩散方法也无法与参考图像相似。作者认为这可能是由于梯度引导策略无法保留足够的内容信息所致。最后,图像协调生成的结果与示例图像几乎相同,这与背景非常不协调。其内在原因是示例图像的外观在大多数情况下无法直接与源图像匹配。生成模型应该自动转换形状、大小或姿态以适应源图像。在图2的最后一列中,作者的方法实现了逼真的照片效果,并且与参考图像相似。

图2

定量分析

表1呈现了定量比较结果。基于图像的编辑方法(包括混合扩散(图像)和DCCF)达到了较高的CLIP分数,表明它们能够保留条件图像的信息,但生成的图像质量较差。稳定扩散方法生成的结果在FID和QS上更加合理。然而,它很难融合图像的条件信息。作者的方法在这三个指标上达到了最佳表现,验证了它不仅可以生成高质量的图像,还可以保持条件信息。

表1

消融实验(Ablation Study)

为了实现高质量的基于示例的图像编辑,作者引入了四个关键技术,分别是利用图像先验、强化数据增强、内容瓶颈和无分类器引导。在此作者进行了五个逐渐变化的设置来验证它们的有效性:1)将之前的简单解决方案称为基准线。它是直接从文本引导修补模型中修改而来,以图像替代文本作为条件信号。2)利用预训练的文本到图像生成模型作为初始化的图像先验。3)为了减小训练和测试之间的差距,对参考图像进行了强化数据增强。4)为了进一步避免陷入平凡解决方案,在训练过程中高度压缩图像信息,增加了重建输入图像的难度,作者将其称为内容瓶颈。5)最后,使用无分类器引导进一步提高性能。

表2和图3展示了结果。基准线解决方案存在明显的边界伪影,并使生成的图像非常不自然。通过利用图像先验,根据较低的FID分数,图像质量得到了改善。然而,它仍然存在复制粘贴的问题。添加增强技术可以部分缓解这个问题。当进一步利用内容瓶颈技术来压缩信息时,这些边界伪影可以完全消除。同时,由于应该生成而不是直接复制遮罩区域,生成器的难度显著增加,这个区域的质量会下降。最后,通过添加无分类器引导,使生成的区域更加接近参考图像,它极大地提升了整体图像质量,并获得了最佳性能。

图3

表2

总结

本文介绍了一种新颖的图像编辑方法“按示例绘图”,旨在根据示例图像在语义上改变图像内容。为了实现这一目标,本文利用了基于自监督训练的扩散模型。然而,简单的方法会引起边界伪影的问题,作者对此进行了仔细分析,并通过提出一组技术来解决,包括利用图像先验知识、强化数据增强、内容瓶颈和无分类器引导。本文的算法能够使用户精确控制编辑,并在野外图像上取得了令人印象深刻的性能。

0 人点赞