EXEMPLAR GUIDED UNSUPERVISED IMAGE-TOIMAGETRANSLATION WITH SEMANTIC CONSISTENCY

2023-10-19 18:31:50 浏览数 (1)

摘要

 由于深度学习的进步,图像到图像的翻译最近受到了极大的关注。大多数工作都集中在以无监督的方式学习一对一映射或以有监督的方式进行多对多映射。然而,更实用的设置是以无监督的方式进行多对多映射,由于缺乏监督以及复杂的域内和跨域变化,这更难实现。为了缓解这些问题,我们提出了示例引导和语义一致的图像到图像翻译(EGSC-IT)网络,该网络对目标域中的示例图像的翻译过程进行调节。我们假设图像由跨域共享的内容组件和每个域特定的风格组件组成。在目标域示例的指导下,我们将自适应实例规范化应用于共享内容组件,这使我们能够将目标域的样式信息传输到源域。为了避免翻译过程中由于大的内部和跨领域变化而自然出现的语义不一致,我们引入了特征掩码的概念,该概念在不需要使用任何语义标签的情况下提供粗略的语义指导。在各种数据集上的实验结果表明,EGSC-IT不仅将源图像转换为目标域中的不同实例,而且在转换过程中保持了语义的一致性。

1、介绍

 图像到图像(I2I)翻译是指将图像从源域映射到目标域的任务,例如语义映射到真实图像、灰度图像到彩色图像、低分辨率图像到高分辨率图像等等。深度学习的最新进展极大地提高了I2I翻译方法在许多应用中的质量,修复、属性转移、风格转移和领域自适应。这些工作中的大多数在这些跨领域I2I翻译任务中都非常成功,因为它们依赖于成对训练数据的大型数据集作为监督。然而,对于许多任务来说,获得这样的成对数据是不容易的,甚至是不可能的,该成对数据示出了源域中的图像应该如何被翻译成目标域中的图片,例如在跨城市街景翻译或男性-女性面部翻译中。对于这种无监督的设置,Zhu等人提出使用循环一致性损失,该损失假设从域a到B的映射,然后进行反向运算,近似产生一个单位函数,即

。刘等人进一步提出了一种共享潜在空间约束,该约束假设分别来自域a和域B的一对对应图像

可以映射到共享潜在空间z中的相同表示z。注意,上述所有方法都假设两个域之间存在确定性的一对一映射,即,A中的每个图像被转换为B中的单个图像。通过这样做,它们无法捕捉目标域内图像分布的多模式性质,例如,在草图到图像的转换中鞋子的不同颜色和风格,以及在合成到真实街景的转换中不同季节。

 在这项工作中,我们提出了示例引导和语义一致的I2I翻译(EGSCIT)来明确解决这个问题。如并发作品所示,我们假设一个图像由两个解纠缠的表示组成。在我们的案例中,首先是对图像中的内容进行建模的领域共享表示,其次是包含风格信息的领域特定表示。然而,对于具有复杂内部变化的多模式域,正如我们在本文中所针对的,例如昼夜或不同季节的街景,很难有一个涵盖该域所有变化的单一静态表示。此外,还不清楚在图像翻译过程中选择哪种风格(一天中的某个时间/季节)。为了处理这种多模式I2I转换,一些方法将噪声向量作为生成器的附加输入,但如图1所示。这可能会导致模式崩溃问题。相反,我们建议将图像翻译过程设置在目标域中的任意图像上,即样例。通过这样做,EGSC-IT不仅实现了多模式(即多对多)图像翻译,而且允许对翻译过程进行明确控制,因为通过使用不同的示例作为指导,我们能够将输入图像翻译成目标域内不同风格的图像——见图1。

 为了实例化这个想法,我们采用了UNIT中提出的权重共享架构,但我们建议根据上面提出的两个解纠缠的表示,将潜在空间分解为两个分量,而不是两个域共享一个潜在空间。也就是说,一个专注于图像内容的领域共享组件,以及一个捕捉与样本相关的风格信息的领域特定组件。在我们的特定情况下,域共享内容组件包含语义信息,如对象的类别、形状和空间布局,而域特定样式组件包含样式信息,如颜色和纹理,将从目标域示例转换为源域中的图像。为了实现这种转换,我们使用从目标域示例计算的AdaIN参数,将自适应实例规范化(AdaIN)应用于源域图像的共享内容分量。然而,将AdaIN直接应用于共享内容组件的特征图会混淆图像中的所有对象和场景,使得当图像包含不同的对象和场景时,图像转换容易失败。为了解决这个问题,现有的作品使用语义标签作为一种额外的监督形式。然而,对于大多数任务来说,基本事实语义标签并不容易获得,因为它们需要劳动密集型注释。相反,为了在不使用任何语义标签的情况下保持图像翻译过程中的语义一致性,我们建议计算特征掩码。可以将特征掩码视为注意力模块,在感知损失和对抗性损失的指导下,以无监督的方式近似解耦不同的语义类别。特别地,对应于某一语义类别的一个特征掩码被应用于共享内容组件的一个特性图,因此,该频道的AdaIN只需要捕获和建模该类别的风格差异,例如两个域中的天空风格。据我们所知,这是在这种情况下解决语义一致性问题的第一条工作线。EGSC-IT概述见图2。

 我们的贡献分为三方面:i) 我们为I2I翻译任务提出了一种新的方法,该方法实现了多模式(即多对多)映射,并允许对翻译过程进行显式风格控制。ii)我们为无监督的多模式I2I翻译任务引入了特征掩码的概念,该任务在不使用任何语义标签的情况下提供粗略的语义指导。iii)在不同数据集上的评估表明,我们的方法对模式崩溃是鲁棒的,并且可以在给定的样本图像的条件下生成具有语义一致性的结果。

2、相关工作

I2I翻译:

 I2I翻译用于学习从一个图像(即,源域)到另一个(即,目标域)的映射。近年来,随着生成模型的出现,这方面的工作也越来越多。Isola等人提出了pix2pix,以对抗性的方式使用U-Net神经网络来学习从输入图像到输出图像的映射。王等人将该方法扩展到pix2pixHD,将语义标签图转化为高分辨率照片逼真图像。朱等人将pix2pix扩展到BicycleGAN,它可以对多模式分布进行建模,并产生多样化和逼真的结果。然而,所有这些方法都需要成对的训练数据作为监督,这在许多情况下可能很难甚至不可能收集,例如合成到真实街景的翻译或人脸到卡通的翻译。

 最近,已经提出了几种无监督的方法来学习没有配对训练数据的两个图像集合之间的映射。请注意,这是一个不适定问题,因为在两个不成对的图像域之间存在着无数的映射。为了解决这个不适定问题,在网络中添加了不同的约束条件,以规范学习过程。一个流行的约束是循环一致性,它强制网络学习各种应用程序的确定性映射。更进一步,刘等人提出了一种共享的潜在空间约束,该约束鼓励来自不同域的一对图像映射到潜在空间中的相同表示。类似地,Royer等人提出了利用潜在的嵌入重建损失来实施特征级约束。然而,正如(Almahairi et al.,2018;Gonzalez-Garcia等人,2018;Lee等人,2018年;Lin等人,2018)中所述,我们认为这些约束不太适合具有较大内域变化的复杂域。与这些方法不同,为了解决这个问题,我们建议在AdaIN的图像翻译过程中添加一个目标域样例作为指导。如前一节所述,AdaIN技术用于将风格分量从目标域样本转移到源域图像的共享内容分量。这允许多模式(即多对多)翻译,并且可以在对翻译过程进行明确控制的情况下产生所需风格的图像。在我们工作的同时,MUNIT还提出使用AdaIN将风格信息从目标域转移到源域。与MUNIT不同,在将AdaIN应用于共享内容组件之前,我们计算特征掩码来解耦不同的语义类别,并在翻译过程中保持语义一致性。特别是,通过将特征掩码应用于共享内容组件的特征图,每个通道可以仅针对单个语义类别专门化和建模风格差异,这在处理具有复杂场景的域时至关重要。

风格转换

风格转移旨在将风格信息从示例图像转移到内容图像,同时保留内容信息。Gatys等人的开创性工作提出,在迭代优化过程之后,通过匹配深度神经网络(DNN)卷积层中的特征相关性,即Gram矩阵,来传递风格信息。为了提高速度和灵活性,已经提出了几种前馈神经网络。Huang和Belongie提出了一种简单但有效的方法,称为AdaIN,该方法将内容图像特征的均值和方差与风格图像特征的方差和均值对齐。李等人提出了白化和着色变换(WCT)算法,该算法将内容图像中的特征协方差与给定风格图像中的协方差直接匹配。然而,由于翻译过程中缺乏语义一致性,这些风格化方法通常会产生非真实感的图像,存在“溢出”问题。为了解决这一问题,语义标签图被用作额外的监督,以帮助在相应的语义区域之间进行风格转移。与这些工作不同,我们建议计算特征掩码来近似地对这种语义信息建模,而不使用任何很难收集的语义标签。

表1总结了最相关工作的特点。可以看出,据我们所知,在感知损失的指导下,我们使用AdaIN和特征掩码相结合的方法是第一个在无监督环境中实现具有高语义一致性的多模式I2I翻译,而不需要任何基本事实语义标签。

3、方法

 我们的目标是以无监督的方式学习两个领域之间的多对多映射,这是在范例风格的指导下进行的,同时保持语义一致性。例如,根据示例,合成街景图像可以转换为白天或晚上的逼真场景。为了实现这一点,类似于并行工作,我们假设图像可以分解为两个解纠缠的分量。在我们的情况下,即一种建模域之间的共享内容,即域共享内容组件,另一种建模目标域中特定于示例的风格信息,即域特定风格组件。在下文中,我们将介绍我们的EGSC-IT框架、其网络架构和学习过程。

3.1、框架

为了简单起见,我们在EGSC-IT中介绍了A→B方向——见图2。每个图像域(即源和目标)由VAE-GAN-Larsen等人建模。(2016),包括编码器

、生成器

和鉴别器

。对A→B方向,翻译过程以及注释都是类似的。

域共享内容的权重共享

 为了学习在源域和目标域之间共享的图像对的内容成分,我们采用了UNIT中提出的权重共享策略。后者假设两个域A和B共享一个共同的潜在空间,并且来自两个域

的任何图像对都可以映射到该共享潜在空间

中的相同潜在表示。它们通过简单地共享

中最后一层以及

中第一层的权重来实现这一点。有关重量分担策略的更多详细信息,我们请读者参阅UNIT的原始论文。

 基于示例的领域特定风格的AdaIN

共享内容组件包含语义信息,例如目标的类别、形状和空间布局,但不包含样式信息,例如它们的颜色和纹理。受Huang和Belongie的启发,我们建议在解码阶段之前将AdaIN应用于共享内容组件。特别地,来自目标域的样本被馈送到另一个网络(见图2,蓝线),以计算一组特征图

,期望其包含目标域的样式信息。如(Huang&Belongie,2017)所述,计算

的每个通道的均值和方差,并将其用作AdaIN的最终参数,

 其中

分别表示用于计算空间维度上的均值和方差的函数。共享内容分量首先通过这些定义的参数进行归一化,如等式2所示。然后使用目标域生成器解码为目标域图像。由于不同的定义参数以不同的方式规范特征统计,通过使用目标域中的不同样本图像作为输入,我们可以将源域中的图像转换为目标域中不同的子样式。因此,EGSC-IT不仅允许多模式I2I翻译,而且同时使用户能够对翻译过程进行明确的风格控制。

 语义一致性的特征掩码

将AdaIN直接应用于共享内容组件并不能得到令人满意的结果。原因是共享内容组件中的一个通道可能包含来自多个对象和场景的信息。由于域内和跨域变化较大,两个域之间的这些对象和场景的差异并不总是一致的。因此,在具有复杂语义的特征图上应用AdaIN容易将不同对象和场景的风格混合在一起,因此无法提供语义一致的翻译。为了解决这个问题,现有的作品使用语义标签作为一种额外的监督形式。然而,对于大多数任务来说,基本事实语义标签并不容易获得,因为它们需要劳动密集型注释。相反,我们建议计算特征掩码(见图2,红线),以在不使用任何基本事实语义标签的情况下对语义类别进行近似估计。可以被视为注意力模块的特征掩码

是通过将非线性激活函数和阈值应用于特征图

来计算的,即

,其中

是阈值,

形函数。特征掩码包含大量语义信息,这些信息可用于在翻译过程中保持语义一致性,例如,在不影响其他场景元素的情况下将源天空翻译为目标天空样式。新的归一化表示

,其中◦ 表示阿达玛乘积。

3.2、网络结构

 整个框架可以分为几个子网络。1) 两个编码器,

。每一个都由几个跨步卷积层和几个残差块组成,用于计算共享内容分量。2) 特征掩码网络和AdaIN网络,

用于A→ B翻译(反之亦然B→ A) 除了权重共享层之外,具有与上述编码器相同的架构。3) 两个生成器,

,几乎与编码器对称,只是上采样是通过转置卷积层完成的。4) 两个鉴别器,

,是包含卷积层堆栈的全卷积网络。5) VGG子网络,V GG,包含预训练的VGG-19的前几层(高达relu5_1),用于计算感知损失。请注意,尽管我们使用UNIT作为基线框架进行构建,但这并不是一个硬性限制。理论上,UNIT可以被任何具有类似功能的基线框架所取代。

3.3、学习

 EGSC-IT的学习过程包括VAE、GANs、周期一致性和感知损失。为了使训练更加稳定,我们首先在VAE-GAN架构中分别为每个域预训练特征掩码网络和AdaIN网络,并将编码器部分用作固定的特征提取器,即FA和FB,用于剩余的训练。总损失如等式3所示,

 其中VAE、GANs和循环一致性损失与Liu等人中使用的相同。感知损失由包含本地化空间信息的V GG19特征图

捕获的内容损失和包含类似于(Gatys等人,2016;Johnson等人,2016)的非本地化风格信息的Gram矩阵捕获的风格损失组成,如下所示,

 其中

是内容和风格损失的权重,这取决于数据集领域的变化和任务。内容损失

和风格损失

定义为,

 我们使用VGG19中五个块的第一个卷积层来提取特征图。

的定义相同。对于内容损失

,采用线性加权方案来帮助网络更多地关注高级语义信息。在内容和风格损失方面,我们使用L1距离,在我们的实验中,L1距离优于L2。

 既然我们已经介绍了所有损失,我们可以解释这些损失如何帮助实现I2I翻译、多模式翻译和语义一致性。I2I翻译:

通过将两个不同的领域联系起来,并以无监督的方式确定两者之间的最佳翻译,有助于维持共享的潜在空间。多模式翻译:

有助于鼓励

看起来不仅像域B中的主要变异模式,而且像域B的样本

,因为域空间实际上由每个数据样本支持。语义一致性:

鼓励网络利用特征掩码信息实现语义一致性,而不像现有工作那样依赖语义标签之间的硬对应。

4、实验

 我们评估了EGSC-IT的翻译能力,即在视觉复杂性逐渐增加的三项任务中,它在定性和定量上生成领域逼真和语义一致的图像的能力:1)个位数翻译;2) 多数字翻译;3) 街景翻译。我们首先在个位数翻译任务中对EGSC-IT的各个组成部分进行了消融研究。然后,我们给出了更具挑战性的翻译任务的结果,并对语义分割任务的EGSC-IT进行了定量评估。在补充材料中,我们将EGSC-IT应用于人脸性别翻译任务,并对街景翻译任务进行了消融研究。

 个位数翻译

我们在MNIST Single数据集上建立了一个对照实验,该数据集是在MNIST-LeChun等人(1998)的手写数字数据集的基础上创建的。MNIST单一数据集由两个不同的域组成,如图4所示。对于两个训练/测试集的域A,前景和背景被随机设置为黑色或白色,但彼此不同。对于训练集的域B,从0到4的数字的前景和背景被随机分配为{红色、绿色、蓝色}中的一种颜色,从5到9的数字的前台和背景分别固定为红色和绿色。对于测试集的域B,所有数字的前景和背景都被随机分配了{红,绿,蓝}中的一种颜色。这种数据不平衡是为了测试翻译的多样性和泛化能力。特别是,对于多样性,我们希望检查一种方法是否会遇到模式崩溃问题,并将图像转换为主导模式,即(红色、绿色),而对于泛化,我们希望查看该模型是否可以应用于目标域中从未出现在训练集中的新样式,例如将数字6从黑色前景和白色背景转换为蓝色前景和红色背景。

 我们首先在MNIST Single数据集上分析了EGSC-IT的三个主要组成部分的重要性,即特征掩码、AdaIN和感知损失。如图4所示,EGSC-IT可以成功地将源图像转换为示例图像的样式。从EGSC-IT中去除特征掩码会导致不正确的前景和背景形状,这表明特征掩码确实可以提供语义信息来传递相应的局部区域。如果没有AdaIN,网络将面临A→B中的模式崩溃问题翻译,即所有样本都被转移到具有红色前景和绿色背景的主导模式,表明样本的风格信息可以帮助网络学习多对多映射,并避免模式崩溃问题。在没有感知损失

的情况下,前景和背景的颜色是不正确的,这表明感知损失可以鼓励网络学习语义知识,在这种情况下是前景和背景,而没有基本的真实语义标签。至于其他I2I翻译方法,CycleGAN和UNIT只能进行确定性的图像翻译,并且存在模式崩溃问题,如white↔ 绿色和黑色↔ 红色表示图4中的CycleGAN。MUNIT可以成功地转换样本图像的风格,但前景和背景是混合的,数字的形状没有很好地保持。这些定性观察结果与表2中的定量结果一致。表2中,我们的完整EGSC-IT比所有其他备选方案获得了更高的SSIM分数。此外,我们还与其他风格转移方法进行了比较,如Neural ST、AdaIN和WCT。在每种情况下,我们都将输入图像的大小调整为512×512分辨率,并选择性能最佳的超参数。注意样式转移方法如何成功地转移样式,但无法保持语义一致性。风格转换方法的定量结果见补充材料。

 为了验证EGSC-IT匹配真实数据和翻译结果的目标域分布的能力,我们在图5中使用t-SNE嵌入对其进行可视化。t-SNE嵌入是根据具有PCA降维的翻译图像来计算的。我们的方法可以很好地匹配分布,而其他方法要么崩溃为少数模式,要么分布不匹配。

 多数字翻译

MNIST Multiple数据集是另一个受控实验,旨在模拟真实世界场景中的复杂性。它用于测试网络是否理解图像中的语义,即数字,并相应地翻译每个数字。MNIST Multiple中的每个图像都包含全部十个数字,这些数字被随机放置在4×4的网格中。设计了两个域:在域A中,前景和背景随机设置为黑色或白色,但彼此不同;在域B中,背景被随机分配给黑色或白色,每个前景数字被分配给特定的颜色,但有一点饱和度和亮度扰动。我们的目标是鼓励网络在将图像从域A翻译到域B时理解语义信息,即不同的数字和背景。也就是说,成功翻译的图像应该分别具有域A的内容、数字类别和域B的风格、数字和背景颜色。这个实验非常具有挑战性,但我们观察到,在不需要基本事实语义标签或配对数据的情况下,我们的模型仍然可以获得良好的结果。例如,在图6的顶行中,给定上述标准,可以成功转换数字1、2、3、4、6。如图6所示,MUNIT无法翻译具有语义一致性的前景颜色,并且颜色看起来更“假”。

街景翻译

我们进行合成↔ GTA5和Berkeley Deep Drive(BDD)数据集之间街景转换的真实实验。街景数据集比数字数据集更复杂(不同的照明/天气条件、复杂的环境)。如图6所示,我们的方法可以根据样本的风格成功地将图像从源域转换到目标域。对于小的变化,例如天→天(第一行),MUNIT可以跟上,但对于较大的变化,例如天→夜间,反之亦然(第二行),这正是我们在本文中研究的问题,只有EGSC-IT才能成功地转换细节,如相对于示例的适当天空颜色和照明条件。与Isola等人使用的FCN评分类似。我们还使用语义分割性能来定量评估图像翻译质量。我们首先将GTA5数据集中的图像转换为BDD数据集中的任意图像。由于GPU内存的限制,我们只生成大小为256×512的图像。然后,我们在翻译的图像上训练单尺度Deeplab模型(Chen et al.,2018),并在BDD测试集上进行测试。表3中的平均交集(mIoU)分数表明,使用我们翻译的合成图像进行训练可以提高分割结果,这表明我们的方法确实可以合理地将源GTA5图像翻译为具有语义一致性的目标域风格,并成功地减少了域差异。

5、讨论

由于我们的方法既不使用任何语义分割标签,也不使用配对数据,因此在某些困难情况下,结果中会出现一些伪影。例如,关于街景翻译,day→夜以继日→一天(例如图7最下面一行)比一天更有挑战性→天(例如图7顶行)。因此,我们的模型有时很难理解这种情况下的语义。未来,将我们的方法扩展到半监督设置中,以从一些完全标记的数据中获益,这将是一件有趣的事情。

6、结论

我们引入了EGSC-IT框架,以无监督的方式学习跨域的多模式映射。在目标域样本的指导下,我们展示了如何将AdaIN与特征掩码相结合,以将样本的风格转移到源图像,同时保持语义一致性。大量的定量和定性结果证明了我们的方法在这种特殊情况下的有效性。

0 人点赞