AI绘画专栏之stablediffusion 用于扩散模型精确控制的 LoRA 适配器 (47)

2023-11-27 11:40:07 浏览数 (2)

以往我们写提示词的语法,高质量的提示词方式层出不穷,但当微调画面时,除了测试以外,我们可以测试提示词的交替采样方式对画面的影响,但是除此之外,有没有更简洁的方式微调画面呢?

划词翻译,我们结合示例效果解析这一功能,以图一为例,当我们改变发色通常需要书写单词pink、green等单词变化头发的颜色,但现在我们只需要改变hair的颜色即可达到改变头发的颜色!!!!这简直太方便了有没有。

添加描述

在文本海的风格中由局部单词的艺术家风格的改变,达到更改为浮世绘/梵高风格,浮世绘, Ukiyo-e,起源于江户时代的日本,它以独特的美学风格深刻影响了世界艺术的发展。文森特·威廉·梵高(Vincent Willem van Gogh,1853年3月30日-1890年7月29日),荷兰后印象派画家。代表作有《星月夜》、自画像系列、向日葵系列等。

只改变字体的大小,来达到里面蘑菇的权重,哇~~~~从此告别小括号

现在微调功能性Lora来了

添加描述

添加描述

如何精确控制扩散模型中的概念?

艺术家花费大量时间制作提示并寻找种子,以使用文本到图像模型生成所需的图像。但是,他们需要对生成图像中的眼睛大小或照明等属性强度进行更细致、更精细的控制。修改提示会破坏整体结构。艺术家需要保持连贯性的表现力控制。

为了在不改变结构的情况下实现精确编辑,我们展示了 Concept Slider,它们是即插即用的低秩适配器,应用于预训练模型之上。通过使用简单的文本描述或一小组成对的图像,我们训练概念滑块来表示所需属性的方向。在生成时,这些滑块可用于控制图像中概念的强度,从而实现细微的调整。

添加描述

概念滑块可以在文本提示、图像对或 StyleGAN 样式空间神经元上进行训练,以识别扩散模型中的目标概念方向,以实现精确的属性控制。

为什么允许在扩散模型中进行概念控制?

在图像生成和编辑过程中精确调制语义概念的能力为利用文本到图像扩散模型的艺术家开辟了创意表达的新领域。正如艺术界最近的讨论所证明的那样,概念控制的局限性阻碍了创作者通过这些生成技术充分表达其愿景的能力。还表示,有时这些模型会产生模糊、扭曲的图像

修改提示往往会极大地改变图像结构,使得难以根据艺术偏好进行微调。例如,艺术家可能会花费数小时来制作提示来生成引人入胜的场景,但缺乏轻柔地调整较轻的概念(如主题的精确年龄或风暴的氛围)以实现其创作目标的能力。对文本和视觉属性进行更直观、更精细的控制将使艺术家能够调整几代人以实现细致入微的细化。 相比之下,我们的概念滑块通过识别与特定概念相关的可解释的潜在方向,可以对视觉属性进行细致入微的连续编辑。通过简单地调整滑块,艺术家可以对生成过程进行更精细的控制,并可以更好地塑造输出以匹配他们的艺术意图。

如何控制模型中的概念?

我们提出了两种类型的训练 - 单独使用文本提示和使用图像对。 对于难以用文本描述的概念或模型无法理解的概念,我们建议使用图像对训练。我们首先讨论文本概念滑块的训练。

文本概念滑块

这个想法很简单,但很强大:预训练模型*(x)具有一些预先存在的概率分布来生成概念 t, 因此,我们的目标是通过形成一个新模型来学习模型层的一些低秩更新(x)重塑其 通过降低属性的概率进行分布c-并提高属性的概率c 在以 t 为条件的图像中, 根据原始预训练模型:

添加描述

这与基于组合能量的模型背后的动机相似。在扩散中,它导致 简单明了的微调方案,通过以下方式修改噪声预测模型 减去一个组件,然后添加一个以概念为条件的组件到 TARGET:

添加描述

我们的概念滑块使用 从原始冷冻稳定扩散 (SD) 中获得的条件分数 model,用于将输出从一个属性引导到另一个属性,以用于正在编辑的目标概念。

我们查询冻结的预训练模型来预测给定目标提示的噪声,并控制属性提示, 然后,我们训练编辑后的模型,使其朝着相反的方向引导 在训练时进行无分类器指导而不是推理的想法。 我们发现用这个目标微调滑块权重是非常有效的, 生产即插即用适配器,直接控制目标概念的属性

在实践中,我们注意到这些概念是相互纠缠的。例如,当我们试图控制一个人的年龄属性时,他们的种族在推理过程中会发生变化。为了避免这种不必要的干扰,我们建议使用一小组保留提示来找到方向。我们不是单独用一对单词来定义属性,而是通过使用多个文本组合来定义它,找到一个改变目标属性的方向,同时保持其他属性要保留的不变。

添加描述

为了避免对编辑的意外干扰并允许精确控制,我们建议找到保留一组受保护概念的方向。例如,我们没有找到从“年轻人”到“老年人”的方向,而是通过特别提到一组要保留的受保护属性来找到一个保留种族的方向,例如“亚洲年轻人”到“亚洲老人”。

添加描述

红色箭头是仅使用“老”和“年轻”提示训练的原始年龄方向。然而,方向与种族纠缠在一起。取而代之的是,我们使用多个提示构建一个新的解开方向(蓝色),以独占方式使新向量在这些方向上不变。例如,“亚洲老人”和“亚洲年轻人”。我们在所有种族解开的比赛中都这样做。

视觉概念滑块

为了训练滑块无法仅用文本提示描述的概念,我们提出了基于图像对的训练。我们特别根据梯度差异训练图像。滑块学习通过图像对之间的对比度来捕捉视觉概念 (x一个,xB).我们的训练过程优化了在消极和积极方向上应用的 LORA。我们将写εθ 用于正 LoRA 的应用和εθ-对于否定情况。然后,我们将以下损失降至最低:

添加描述

为什么 Concept Sliders 排名低且解开?

我们在滑块中引入了低秩约束,主要有两个原因。首先,提高参数计数和计算的效率。其次,以更好的泛化精确捕获编辑方向。解开的公式有助于将编辑与不需要的属性隔离开来。我们展示了一项消融研究,以更好地了解我们工作中这两个主要组成部分的作用。

添加描述

解开纠缠目标有助于避免在编辑年龄时发生意外的属性更改,例如种族或性别的变化。低排名约束对于实现精确编辑也是必不可少的。

用于提高图像质量的滑块

大型生成模型(如 Stable Diffusion XL)最有趣的方面之一是,尽管它们的图像输出经常会受到扭曲或模糊物体等失真的影响,但模型的参数包含一种潜在的能力,可以生成更高质量的输出,并且比默认产生的失真更少。概念滑块可以通过识别修复常见失真的低秩参数方向来解锁这些能力。

添加描述

修复滑块使模型能够生成更逼真且不失真的图像。此滑块控制下的参数可帮助模型纠正其生成输出中的一些缺陷,例如(a,b)中的扭曲的人类和宠物,(b,c,d)中的非自然对象以及(b,c)中的模糊自然图像

添加描述

我们演示了“修复”滑块对精细细节的影响:它改善了密集排列的物体的渲染,拉直了建筑线条,并避免了复杂形状边缘的模糊和扭曲。

添加描述

我们演示了一种用于将手固定在稳定扩散中的滑块。我们找到了一个方向,引导手更逼真,远离“画得不好的手”。

控制文本概念

我们研究文本概念滑块;本文对以往的图像编辑方法和基于文本的提示编辑方法进行了更多的定量分析。

添加描述

通过使用一小组要控制的属性的文本描述,可以训练概念滑块,以便在推理过程中对生成的图像进行细粒度控制。通过缩放滑块因子,用户可以控制编辑的强度。

添加描述

我们展示了如何使用不同的滑块来控制图像的多个属性。我们注意到,由于采用低秩配方,参数重量轻,易于共享和插入。

添加描述

我们演示了“令人愉快”、“黑暗”、“热带”和“冬季”的天气滑块。为了令人愉快,我们注意到该模型有时会使天气变得明亮或添加节日装饰。对于热带地区,它增加了热带植物和树木。最后,在冬天,它增加了雪。

添加描述

我们演示了“皮克斯”、“逼真细节”、“粘土”和“雕塑”的样式滑块。

控制视觉概念

Nunance的视觉概念可以使用我们的视觉滑块进行控制;本文展示了与定制方法的比较和一些定量评估。

添加描述

可以为无法用语言描述的概念创建滑块。这些滑块是由艺术家使用 6-8 对图像创建的。

StyleGAN 潜伏,尤其是 stylespace 潜伏,可以转移到 Stable Diffusion。我们从styleGAN收集图像,并在这些图像上训练滑块。我们发现扩散模型可以学习解开的风格空间神经元行为,使艺术家能够控制styleGAN中存在的细微属性。

添加描述

Stylespace 潜伏可以从 styleGAN 转移到 Stable Diffusion XL。

合成多个滑块

我们的低秩滑块方向的一个关键优势是可组合性 - 用户可以组合多个滑块进行细致入微的控制,而不是一次局限于一个概念。通过下载有趣的滑块组,用户可以同时调整多个旋钮来控制复杂的几代

添加描述

我们展示了混合“熟食”和“美食”食物滑块,以遍历这个 2D 概念空间。有趣的是,该模型如何为“精致餐饮”提供小份量。

添加描述

我们定性地展示了一次最多 50 个滑块逐渐组合多个滑块的效果。我们使用远远大于 77 个标记(SDXL 的当前上下文限制)来创建这 50 个滑块。这展示了我们方法的强大功能,它允许仅通过基于提示的方法进行控制。

我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!

0 人点赞