SD目前最大的问题还是显存占用问题,特别是个别视频插件,包括最近出的Stability videoAI,更是将显存占到了极致,再加上4090的禁售,这对硬件玩家很不友好,那么对此我总结了市面上最具性价比的6种解决方式,让你在Tensor RT的基础上利用LCM再搭配FO,将你的硬件利用率拉满的同时体验SDXL!!!
SDXL为什么强?
0.1参数训练量为101亿 其中BASE模型35 亿 加REFINER模型66亿 SD的8倍???
0.2对Stable Diffusion原先的U-Net(XL Base U-Net 一共14个模块),VAE,CLIP Text Encoder三大件都做了改进。可以明显减少显存占用和计算量
0.3增加一个单独的基于Latent(潜在)的Refiner(炼制)模型,来提升图像的精细化程度。【新增:对Base模型生成的图像Latent特征进行精细化,其本质上是在做图生图的工作。】
0.4设计了很多训练Tricks(技巧)(这些Tricks都有很好的通用性和迁移性,能普惠其他的生成式模型),包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等。
0.5先发布Stable Diffusion XL 0.9测试版本,基于用户使用体验和生成图片的情况,针对性增加数据集和使用RLHF技术优化迭代推出Stable Diffusion XL 1.0正式版。
0.6采样方法禁用DDIM (保留意见、非绝对),不需要开启CN,随着CN的支持,可以开启CN的XL版本。所有的环境需要都是XL的生态
0.7直接出1024分辨率图片 1024 * 1024 起步
主要收获:
SDXLTurbo采用新的蒸馏技术实现了最先进的性能,能够以前所未有的质量生成单步图
像,将所需的步数从50减少到1。
请参阅我们的研究论文,了解有关该模型的新蒸馏技术的具体技术细节,该技术利用用了
对抗性训练和分数蒸馏的组合。
在Hugging Face上下载模型重量和代码,该软件目前是根据非商业研究许可证发布的,允许
个人非商业使用。
在StabilityAl的图像编辑平台Clipdrop上测试SDXLTurbo,并进行实时文本到图像
生成功能的测试演示。
今天,我们将发布SDXLTurbo,一种新的文本到图像模式。SDXLTurbo基于一种名为对抗扩散蒸
馏ADD的新型蒸馏技术,该技术使模型能够在一步中合成图像输出,并生成实时文本到图像输出
同时保持高采样保真度。对于对技术细节感兴趣的研究人员和爱好者,我们的研究论文可在此处获
取。需要注意的是,SDXL Turbo尚未用于商业用途。
对抗扩散蒸馏的优点
以扩散模型技术的新进展为特色,SDXLTurbo在SDXL1.0的基础上进行行选代,并为文本到图像模型
实现了一种新的蒸馏技术:对抗性扩散蒸馏。通过结合ADD,SDXLTurbo获得了与GANS生成对抗
性网络共享的许多优势,例如单步图像输出,同时避免了在其他蒸馏方法中经常观察到的伪影或
模糊。SDXLTurbo的研究论文详细介绍了该模型的新蒸馏技术,可在此处获得。
与其他扩散模型相比的性能优势
为了选择SDXLTurbo,我们通过生成具有相同提示的输出,比较了多种不同型号的StyleGANT
使用相同的图像质量方法完成。在这些盲测试中,SDXLTurbo能够用一个步骤击败LCMXL的4步
配置,以及仅用4步击败SDXL的50步配置。有了这些结果,我们可以看到SDXLTurbo在不牺牲图像
质量的情况下,以显著更低的计算要求优于最先进的多步模型。
此外,SDXLTurbo对推理速度提供了重大改进。在A100上,SDXLTurbo在207ms内生成512512
图像(提示编码 单个去噪步骤 解码,fp16,其中67ms由单个UNet前向评估计算。
我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!