AI绘画专栏之stablediffusion 用于扩散模型精确控制的 LoRA 适配器 (47)

以往我们写提示词的语法，高质量的提示词方式层出不穷，但当微调画面时，除了测试以外，我们可以测试提示词的交替采样方式对画面的影响，但是除此之外，有没有更简洁的方式微调画面呢？

划词翻译，我们结合示例效果解析这一功能，以图一为例，当我们改变发色通常需要书写单词pink、green等单词变化头发的颜色，但现在我们只需要改变hair的颜色即可达到改变头发的颜色！！！！这简直太方便了有没有。

添加描述

在文本海的风格中由局部单词的艺术家风格的改变，达到更改为浮世绘/梵高风格，浮世绘， Ukiyo-e，起源于江户时代的日本，它以独特的美学风格深刻影响了世界艺术的发展。文森特·威廉·梵高（Vincent Willem van Gogh，1853年3月30日-1890年7月29日），荷兰后印象派画家。代表作有《星月夜》、自画像系列、向日葵系列等。

只改变字体的大小，来达到里面蘑菇的权重，哇~~~~从此告别小括号

现在微调功能性Lora来了

添加描述

添加描述

如何精确控制扩散模型中的概念？

艺术家花费大量时间制作提示并寻找种子，以使用文本到图像模型生成所需的图像。但是，他们需要对生成图像中的眼睛大小或照明等属性强度进行更细致、更精细的控制。修改提示会破坏整体结构。艺术家需要保持连贯性的表现力控制。

为了在不改变结构的情况下实现精确编辑，我们展示了 Concept Slider，它们是即插即用的低秩适配器，应用于预训练模型之上。通过使用简单的文本描述或一小组成对的图像，我们训练概念滑块来表示所需属性的方向。在生成时，这些滑块可用于控制图像中概念的强度，从而实现细微的调整。

添加描述

概念滑块可以在文本提示、图像对或 StyleGAN 样式空间神经元上进行训练，以识别扩散模型中的目标概念方向，以实现精确的属性控制。

为什么允许在扩散模型中进行概念控制？

在图像生成和编辑过程中精确调制语义概念的能力为利用文本到图像扩散模型的艺术家开辟了创意表达的新领域。正如艺术界最近的讨论所证明的那样，概念控制的局限性阻碍了创作者通过这些生成技术充分表达其愿景的能力。还表示，有时这些模型会产生模糊、扭曲的图像

修改提示往往会极大地改变图像结构，使得难以根据艺术偏好进行微调。例如，艺术家可能会花费数小时来制作提示来生成引人入胜的场景，但缺乏轻柔地调整较轻的概念（如主题的精确年龄或风暴的氛围）以实现其创作目标的能力。对文本和视觉属性进行更直观、更精细的控制将使艺术家能够调整几代人以实现细致入微的细化。相比之下，我们的概念滑块通过识别与特定概念相关的可解释的潜在方向，可以对视觉属性进行细致入微的连续编辑。通过简单地调整滑块，艺术家可以对生成过程进行更精细的控制，并可以更好地塑造输出以匹配他们的艺术意图。

如何控制模型中的概念？

我们提出了两种类型的训练 - 单独使用文本提示和使用图像对。对于难以用文本描述的概念或模型无法理解的概念，我们建议使用图像对训练。我们首先讨论文本概念滑块的训练。

文本概念滑块

这个想法很简单，但很强大：预训练模型Pθ*(x)具有一些预先存在的概率分布来生成概念 t，因此，我们的目标是通过形成一个新模型来学习模型层的一些低秩更新Pθ(x)重塑其通过降低属性的概率进行分布c-并提高属性的概率c 在以 t 为条件的图像中，根据原始预训练模型：

添加描述

这与基于组合能量的模型背后的动机相似。在扩散中，它导致简单明了的微调方案，通过以下方式修改噪声预测模型减去一个组件，然后添加一个以概念为条件的组件到 TARGET：

添加描述

我们的概念滑块使用从原始冷冻稳定扩散（SD）中获得的条件分数 model，用于将输出从一个属性引导到另一个属性，以用于正在编辑的目标概念。

我们查询冻结的预训练模型来预测给定目标提示的噪声，并控制属性提示，然后，我们训练编辑后的模型，使其朝着相反的方向引导在训练时进行无分类器指导而不是推理的想法。我们发现用这个目标微调滑块权重是非常有效的，生产即插即用适配器，直接控制目标概念的属性

在实践中，我们注意到这些概念是相互纠缠的。例如，当我们试图控制一个人的年龄属性时，他们的种族在推理过程中会发生变化。为了避免这种不必要的干扰，我们建议使用一小组保留提示来找到方向。我们不是单独用一对单词来定义属性，而是通过使用多个文本组合来定义它，找到一个改变目标属性的方向，同时保持其他属性要保留的不变。

添加描述

为了避免对编辑的意外干扰并允许精确控制，我们建议找到保留一组受保护概念的方向。例如，我们没有找到从“年轻人”到“老年人”的方向，而是通过特别提到一组要保留的受保护属性来找到一个保留种族的方向，例如“亚洲年轻人”到“亚洲老人”。

添加描述

红色箭头是仅使用“老”和“年轻”提示训练的原始年龄方向。然而，方向与种族纠缠在一起。取而代之的是，我们使用多个提示构建一个新的解开方向（蓝色），以独占方式使新向量在这些方向上不变。例如，“亚洲老人”和“亚洲年轻人”。我们在所有种族解开的比赛中都这样做。

视觉概念滑块

为了训练滑块无法仅用文本提示描述的概念，我们提出了基于图像对的训练。我们特别根据梯度差异训练图像。滑块学习通过图像对之间的对比度来捕捉视觉概念（x一个,xB).我们的训练过程优化了在消极和积极方向上应用的 LORA。我们将写εθ 用于正 LoRA 的应用和εθ-对于否定情况。然后，我们将以下损失降至最低：