在Diffusion模型之前,生成模型主要还是基于GAN,而CycleGAN和Pix2Pix则是基于GAN来进行风格迁移的非常有代表性的工作,那么,现如今Diffusion模型大火,当CycleGAN遇到Diffusion会碰撞出什么火花呢?
相关链接
论文地址:https://arxiv.org/abs/2403.12036
项目地址:https://github.com/GaParmar/img2img-turbo
论文阅读
一步图像翻译与Text-to-Image模型
摘要
在这项工作中,我们解决了现有条件扩散模型的两个局限性:由于迭代去噪过程导致的推理速度慢以及对配对数据进行模型微调的依赖。为了解决这些问题,我们引入了一种通过对抗性学习目标将单步扩散模型适应新任务和领域的通用方法。具体来说,我们将 vanilla 潜在扩散模型的各个模块合并为一个具有较小可训练权重的端到端生成器网络,增强了其保留输入图像结构的能力,同时减少了过度拟合。我们证明,对于非配对设置,我们的模型 CycleGAN-Turbo 在各种场景转换任务(例如白天到夜晚的转换以及添加/删除雾、雪和雨等天气效果)方面优于现有的基于 GAN 和基于扩散的方法。我们将方法扩展到配对设置,其中我们的模型 pix2pix-Turbo 与最近的作品(如 Sketch2Photo 和 Edge2Image 的 ControlNet)相当,但具有单步推理。这项工作表明,单步扩散模型可以作为一系列 GAN 学习目标的强大支柱。
方法
实验效
结论
我们的工作表明,一步式预训练模型可以作为许多下游图像合成任务的强大且多功能的主干模型。可以通过各种 GAN 目标将这些模型适应新任务和领域,而无需进行多步扩散训练。我们的模型训练只需要少量额外的可训练参数。
虽然我们的模型可以用一个步骤产生视觉上吸引人的结果,但它确实有局限性。首先,我们无法指定指导的强度,因为我们的主干模型 SD-Turbo 不使用无分类器指导。引导蒸馏可能是实现指导控制的有前途的解决方案。其次,我们的方法不支持负面提示,这是一种减少伪影的便捷方法。第三,具有循环一致性损失和高容量生成器的模型训练占用大量内存。探索单侧方法以实现更高分辨率的图像合成是下一步有意义的工作。