基于文本驱动用于创建和编辑图像（附源代码）

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2206.02779.pdf

计算机视觉研究院专栏

作者：Edison_G

神经图像生成的巨大进步，再加上看似无所不能的视觉语言模型的出现，终于使基于文本的界面能够用于创建和编辑图像。

概括

处理通用图像需要一个多样化的底层生成模型，因此最新的作品利用了扩散模型，这被证明在多样性方面超过了GAN。然而，扩散模型的一个主要缺点是它们的推理时间相对较慢。

在今天分享中，研究者为通用图像的本地文本驱动编辑任务提出了一种加速解决方案，其中所需的编辑仅限于用户提供的掩码。研究者的解决方案利用了最近的文本到图像潜在扩散模型 (LDM)，该模型通过在低维潜在空间中运行来加速扩散。

首先转换通过将混合扩散融入LDM到本地图像编辑器中。接下来，针对这种LDM固有的无法准确重建图像的问题，提出了一种基于优化的解决方案。最后，研究者解决了使用薄掩码执行本地编辑的场景。根据可用的基线定性和定量地评估新提出的方法，并证明除了更快之外，新方法在减轻一些伪影的同时比基线实现了更好的精度。

项目页面地址：https://omriavrahami.com/blended-latent-diffusion-page

新框架方法分析

Blended Latent Diffusion旨在为混合扩散论文中介绍的通用图像的本地文本驱动编辑任务提供解决方案。Blended Diffusion受到推理时间缓慢（在单个GPU上获得良好结果需要大约25分钟）和像素级伪影的影响。

为了解决这些问题，研究者提出将混合扩散合并到文本到图像的潜在扩散模型中。为了做到这一点，对潜在空间进行操作，并在该潜在空间中反复混合前景和背景部分，扩散过程如下：

在潜在空间上操作确实享有快速的推理速度，但是它存在未屏蔽区域的不完美重建并且无法处理薄掩模。有关我们如何解决这些问题的更多详细信息，请继续阅。

Noise artifacts

给定输入图像(a)和mask(b)以及引导文本“金色卷发”，与新提出的方法(d)相比，混合扩散会产生明显的像素级噪声伪影(c)。

如前所述，潜在扩散可以从给定的文本生成图像（文本到图像LDM）。然而，该模型缺乏以局部方式编辑现有图像的能力，因此研究者建议合并混合扩散到文本到图像的LDM。

新方法在第一章节进行了总结，有关算法的说明，请阅读原论文。LDM在变分自动编码器VAE = (

0 人点赞