十七、图像转换
43、 SPatchGAN: A Statistical Feature Based Discriminator for Unsupervised Image-to-Image Translation
- 对于无监督的图像到图像转换,提出一种判别器架构专注于统计特征而不是单个patch感受野。与现有方法对生成器施加越来越多的约束不同,方法通过简化框架促进了形状变形并增强细节。
- 所提出的方法在各种具有挑战性的应用中优于现有模型,包括自拍到动漫、男性到女性和眼镜去除等应用。
44、 Dual Transfer Learning for Event-based End-task Prediction via Pluggable Event to Image Translation
- 事件相机(Event cameras )是一种新型传感器,可感知每像素强度变化并输出具有高动态范围和较少运动模糊的异步事件流。已经表明,事件本身可以用于任务学习,例如语义分割,基于类似编码器解码器的网络等。然而,由于稀疏特性且主要反映边缘信息,仅依靠解码器很难恢复原始细节。此外,大多数方法仅依靠逐像素损失进行监督,这可能不足以充分利用稀疏事件的视觉细节,从而导致不太理想的性能。
- 本文提出简单而灵活的双流框架,称为双迁移学习(Dual Transfer Learning,DTL),以有效提高最终任务的性能,而不会增加额外的推理成本。所提出的方法由三部分组成:事件到终端任务学习(EEL)分支、事件到图像转换(EIT)分支和迁移学习(TL)模块。通过语义分割和深度估计等任务的显著性能提升来证明这种方法的强大表示学习。
45、 Bridging the Gap between Label- and Reference-based Synthesis in Multi-attribute Image-to-Image Translation
- 图像到图像转换 (image-to-image translation,I2IT) 模型将目标标签或参考图像作为输入,并将源转换到指定的目标域风格。这两种类型的合成,无论是基于标签的还是基于参考的,都有很大的不同。特别地,基于标签的合成反映了目标域的共同特征,而基于参考的合成则表现出与参考相似的特定风格。本文旨在弥合它们在多属性 I2IT 任务中的差距,设计了基于标签和参考的编码模块(reference-based encoding modules,LEM 和 REM)来比较域差异。
- 首先将源图像和目标标签(或参考)转移到一个公共嵌入空间中,然后将两个嵌入简单地融合在一起,形成潜码 Srand(或 Sref),可以反映领域风格的差异,并由 SPADE 注入到生成器的每一层。为了将 LEM 和 REM 联系起来,使两种结果互惠互利,鼓励两种潜码接近,并在它们上设置前向和后向转换之间的循环一致性。
- 此外,Srand 和 Sref 之间的插值也用于合成额外的图像。实验表明,基于标签和基于参考的合成确实是相互促进的,因此可以从 LEM 获得多样化的结果,以及具有相似参考风格的高质量结果。
- https://github.com/huangqiusheng/BridgeGAN
46、 Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving
- 基于 GAN 的图像转换方法取得了重大进展。然而,现有方法缺乏保留源域“ID身份”的能力,这使得生成的图像过度被参考目标域影响,失去原有重要的结构特征。
- 为此,提出一种新的频域图像转换 (FDIT) 框架,利用频率信息来增强图像生成过程。将图像分解为低频和高频分量,其中高频特征捕获类似于身份的对象结构,训练目标有助于在像素空间和傅里叶光谱空间中保存频率信息。在五个大型数据集和多个任务中广泛评估 FDIT表明了方法的优越性。
47、 Harnessing the Conditioning Sensorium for Improved Image Translation
- 域转换里,我们可能希望图像继承“内容”图像的某些属性(例如布局、语义或几何),而继承“风格”图像的风格(例如纹理、照明)。任务主要方法是学习解耦的“内容”和“风格”表示。
- 但这并不简单,因为用户希望保留的内容取决于他们的想法。因此,本文根据现成的预训练模型提取的条件信息来定义“内容”。然后,使用一组易于优化的重建目标来训练风格提取器和图像解码器。各种高质量预训练模型和简单的训练流程使方法可直接应用于众多领域和“内容”的定义。
48、 Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation
- 对比学习Contrastive learning在非配对图像到图像转换中显示出巨大的潜力,但有时转换结果很差,且内容结构上没有保留较好的一致性。
- 本文发现负样本(negative example)在图像转换对比学习的性能中起着关键作用。以往方法中的负样本是从源图像中不同位置的patch中随机抽取的,不能有效地将正样本推到靠近查询样本的位置。为此提出在非配对图像到图像转换 (NEGCUT) 中用于对比学习的实例化硬负样本生成,训练一个生成器在线生成负样本。三个基准数据集的实验表明,与以前的方法相比,所提出的 NEGCUT 框架性能更优。
49、 Online Multi-Granularity Distillation for GAN Compression
- 生成对抗网络 (GAN) 在生成图像方面取得了较大成功,但由于计算成本和内存使用消耗较大,它们在资源受限的设备上部署起来并不简单。尽管最近压缩 GAN 也有进展,但仍存在潜在的模型冗余,可以进一步压缩。
- 为此提出在线多粒度蒸馏(OMGD)方案来获得轻量级 GAN,这有助于生成具有低计算需求的高保真图像。首次尝试推广面向 GAN 的压缩的单阶段在线蒸馏,其中逐步提升的教师生成器有助于改进基于无判别器的学生生成器。互补的教师生成器和网络层提供全面和多粒度的概念,以从不同维度增强视觉保真度。四个基准数据集的实验结果表明,OMGD 成功地在 Pix2Pix 和 CycleGAN 上压缩了 40 倍 MAC 和 82.5 倍参数,而没有损失图像质量,OMGD 为在资源受限的设备上部署实时图像转换提供了一种可行的解决方案。
- https://github.com/bytedance/OMGD
50、 Rethinking the Truly Unsupervised Image-to-Image Translation
- 当前,图像转换模型都需要图像级别(即输入-输出对)或集合级别(即域标签)的监督信息。但集合级别的监督也可能较难标注。
- 本文研究在完全无监督之下,处理图像转换问题,而不需要配对图像或者域标签信息。为此,提出一个真正无监督的图像转换模型(unsupervised image-to-image translation,TUNIT),同时学习分离图像域并完成图像转换。实验结果表明,我们的模型与使用全标签训练的集合级监督模型相比具有可比甚至更好的性能,在各种数据集上泛化良好,并且对超参数的选择具有鲁棒性。此外,TUNIT 可以很容易地扩展到具有少量标记数据的半监督学习。
51、 Scaling-up Disentanglement for Image Translation
- 图像转换方法,通常是为了编辑控制一组标记的属性(在训练时作为监督,例如域标签),同时保持其它未标记的属性不变。当前方法要么可以实现解耦属性,但视觉保真度较低;要么是可以完成视觉上较好的转换效果,但没有解耦属性。
- 这项工作提出OverLORD,一个用于分离标记和未标记属性以及合成高保真图像的框架,由两个阶段组成。解耦:通过潜在优化学习解耦表示。与以前的方法不同,我们不依赖对抗性训练或任何架构偏见。合成:训练前馈编码器以推断学习属性并以对抗方式调整生成器以提高感知质量。当标记和未标记的属性相关时,建模一个额外的表示来解释相关属性并改善解耦效果。方法涵盖多种设置,如解耦标记的属性、姿势和外观、形状和纹理等。与此前方法相比,提供更好的转换质量和多样性。
52、 Semantically Robust Unpaired Image Translation for Data with Unmatched Semantics Statistics
- 不成对的图像转换应用里,很多时候要求保留输入内容的语义结构。由于不知道源域和目标域之间内在固有的不匹配语义分布,现有方法(即基于 GAN)可能会输出不理想的效果。特别是,虽然产生视觉上合理的输出,但学习模型通常会转换输入的语义结构。
- 为了在不使用额外监督信息情况下解决这个问题,提出强制转换后的输出在语义上保持不变。输入的微小感知变化,本文称之为“语义鲁棒性”的属性。通过优化鲁棒性损失 w.r.t. 由于输入的多尺度特征空间扰动,方法有效地减少了语义翻转,并产生在数量和质量上都优于现有转换方法。
53、 TransferI2I: Transfer Learning for Image-to-Image Translation from Small Datasets
- 图像转换应用近年来已得到大量研究,已经可以生成较逼真的图像。但在应用于小数据集领域时仍面临重大挑战。现有方法使用迁移学习进行图像转换,但需要从头开始学习数百万个参数。本文提出一种新的图像转换迁移学习 (TransferI2I)方法,将学习过程解耦为图像生成步骤和转换步骤。
- 第一步,提出两种新技术:源-目标域初始化(source-target initialization)和适配器层(adaptor layer)的自初始化。前者在源数据和目标数据上微调预训练的生成模型(例如 StyleGAN);后者允许在不需要任何数据的情况下初始化所有非预训练的网络参数。这些技术为转换步骤提供了更好的初始化。
- 此外引入一种辅助 GAN,进一步促进训练。对三个数据集(动物面孔、鸟类和食物)的广泛实验表明,方法优越。
- https://github.com/yaxingwang/TransferI2I
54、Unaligned Image-to-Image Translation by Learning to Reweight
- 无监督图像转换,学习的是从源域到目标域的映射,且不使用配对图像进行训练。无监督图像转换的一个基本前提假设是两个域是对齐的,例如,对于 selfie2anime 任务,动漫(自拍)域必须只包含可以转换成另一个域中的某些图像的动漫(自拍)脸部图像。但收集对齐域的数据很费力。
- 本文考虑两个未对齐域之间的图像转换任务,提出基于重要性重新加权来选择图像,并开发一种方法来学习权重并同时自动执行转换。实验表明了所提方法的优越性。
55、Sketch Your Own GAN
- 素描可能是传达视觉概念的最普遍的方式,能否通过绘制单个示例样本来创建深度生成模型?传统上,创建 GAN 模型需要收集大规模的样本数据集和深度学习的专业知识。
- 这项工作提出了一种 GAN Sketching 方法,用一个或多个草图样本重新打造GAN,且训练容易。模型的输出通过跨域对抗性损失来匹配用户草图。此外,探索了不同的正则化方法来保持原始模型的多样性和图像质量。
- 实验表明,方法可以匹配草图指定的形状和姿势,同时保持真实性和多样性。最后,展示了一些应用,包括潜在空间插值和图像编辑。
- https://github.com/PeterWang512/GANSketching