啊?AI绘画一个插件性能就提升5倍?尊嘟假嘟

2023-11-15 19:05:14 浏览数 (2)

LCM 这个技术可以让 4090在1 秒钟生成 10 张 512X512 大小的图片,太强了,如果可以用在 Animetadiff 中的话可以大幅提高视频生成效率。以往我们用 SD 生成图片起码需要 20 步的推导步骤,但是使用 LCM 只需要 4 步就行,从一些测试结果看 6-8 步可能是一个理想的步骤。你现在可以在 WebUI 和 ComfyUI 中尝试 LCM,但是这两个插件我安装的时候都遇到了不同程度的问题,感兴趣的可以自己安装一下。LCM 有个问题是目前只能用自己的模型,不能兼容现有的 SD 模型,不过如果效率足够高的话我感觉会有更多适配。

伴随着OpenAI在11月7日开发者大会当天除了chatGPTs全家桶外,OpenAI开源了全新解码器,依赖LCM技术,开源了全新的VAE,随之而来的LCM这个名词也火了起来,但是说好的提升怎么变成5倍了?

Stablediffusion

Stable Diffusion 是一个2022年发布的深度学习文本到图像的潜在扩散模型(LDM / Latent Diffusion Model),由 CompVis、Stability AI 和 LAION 的研究人员和工程师创建。它使用来自 LAION-5B 开源数据库子集的512x512图像进行训练,通过引入隐向量空间来解决 Diffusion 速度瓶颈,除了可用于文生图任务,还可以用于图生图、特定角色刻画,甚至是超分或者上色任务

如何理解呢?

当向平静的湖面扔了一个小石子,水波纹向周边扩散最终恢复平静的过程,我们称之为稳定扩散,在图像生图原理中扩散过程是指,将一个图像经过多次迭代,逐渐变得模糊、扩散的过程。在这个过程中,图像的细节信息会逐渐消失,只保留下整体的结构信息。稳定扩散这个名字来源于这个过程的稳定性

潜在一致性模型:不再逐步去噪直接映射

在官方论文中指出潜在扩散模型(LDMs)在合成高分辨率图像方面取得了显著的成果。但是,迭代采样过程是计算密集型的,并且会导致生成缓慢。受一致性模型(song 等人)的启发,我们提出了潜在一致性模型 (LCM),可以在任何预训练的 LDM 上以最少的步骤进行快速推理,包括稳定扩散(rombach 等人)。将引导反向扩散过程视为求解增强概率流常微分方程 (PF-ODE),LCM 旨在直接预测此类常微分方程在潜在空间中的解,从而减少对多次迭代的需求,并允许快速、高保真采样。高质量的 768 x 768 2~4 步 LCM 从预先训练的无分类器引导扩散模型中高效提炼出来,训练时间仅为 32 个 A100 GPU 小时。此外,我们还引入了潜在一致性微调 (LCF),这是一种为在自定义图像数据集上微调 LCM 量身定制的新方法。对 LAION-5B-Aesthetics 数据集的评估表明,LCM 通过几步推理实现了最先进的文本到图像生成性能

通过将无分类器的引导提炼到模型的输入中,LCM 可以在非常短的推理时间内生成高质量的图像。我们比较了使用 A800 GPU 在 768 x 768 分辨率、CFG 规模 w=8、batchsize=4 设置下的推理时间。

ComfyUI

LCM img2img

LCM vid2vid

报错解决

代码语言:javascript复制
ValueError: Non-consecutive added token '<|startoftext|>' found. Should have index 49408
 but has index 49406 in saved vocabulary

要解决此问题,请找到 huggingface hub 缓存目录。

它将是类似 .在 Windows 上,它大致是 .~/.cache/huggingface/hub/path_to_lcm_dreamshaper_v7/tokenizer/C:UsersYourUserName.cachehuggingfacehubmodels--SimianLuo--LCM_Dreamshaper_v7snapshotsc7f9b672c65a664af57d1de926819fd79cb26eb8tokenizer

找到文件并将内容更改为:added_tokens.json

代码语言:javascript复制
{
  "<|endoftext|>": 49409,
  "<|startoftext|>": 49408
}

0 人点赞