Unsupervised Image-to-Image Translation Networks

摘要

大多数现有的图像到图像翻译框架——将一个域中的图像映射到另一个域的对应图像——都是基于监督学习的，即学习翻译函数需要两个域中对应的图像对。这在很大程度上限制了它们的应用，因为在两个不同的领域中捕获相应的图像通常是一项艰巨的任务。为了解决这个问题，我们提出了基于变分自动编码器和生成对抗性网络的无监督图像到图像翻译（UNIT）框架。所提出的框架可以在没有任何对应图像的情况下在两个域中学习翻译函数。我们通过结合权重共享约束和对抗性训练目标来实现这种学习能力。通过各种无监督图像翻译任务的可视化结果，我们验证了所提出的框架的有效性。消融研究进一步揭示了关键的设计选择。此外，我们将UNIT框架应用于无监督领域自适应任务，并取得了比基准数据集中的竞争算法更好的结果。

介绍

将图像从一个域映射到另一个域（图像到图像的转换）具有广泛的应用。可以将难以理解的模态中的图像翻译成相应的彩色图像，以便更好地可视化；可以将一个域中的标记图像翻译成目标域中的对应图像，从而创建可用于在目标域中训练分类器的训练数据集。

现有的大多数图像到图像的翻译方法都是基于监督学习的。它们需要由两个域中的成对对应图像组成的训练数据集。尽管它们可以在几个图像翻译任务（例如超分辨率和彩色化）中获得良好的性能，但对于许多应用来说，所需的图像对很难获得；某些应用需要复杂的设置，包括多个传感器、反射镜和分束器，而其他应用可能需要改变人体的外观。

为了解决这一限制，我们建议使用无监督的图像到图像翻译（UNIT）网络框架来学习两个图像域之间的双向翻译函数。我们不需要相应的图像对，而只是假设每个域的图像数据集。该框架基于最近的深度生成模型，包括生成对抗性网络（GANs）和变分自动编码器（VAE）。我们使用VAE和GAN对每个图像域进行建模。通过对抗性训练目标，隐式地为每个域定义图像保真度函数。对抗性训练目标与权重共享约束相互作用，以在两个域中生成相应的图像，而变分自动编码器将翻译的图像与相应域中的输入图像相关联。通过各种无监督图像翻译任务的可视化结果，我们验证了所提出的框架的有效性。消融研究和超参数敏感性测试揭示了关键的设计选择。最后，我们将UNIT应用于无监督领域自适应任务，并取得了比基准数据集中的竞争算法更好的结果。

2、数学动机

设

和

是两个不同的图像域。在有监督的图像到图像转换问题中，我们得到了从联合分布

中提取的训练样本

。在无监督设置中，我们只从边缘分布

和

中得到训练样本。如果没有任何其他假设，我们就无法从边际分布中推断出联合分布。

为了说明我们的方法背后的动机和想法，让我们考虑一个非常简单的模型，其中两个领域中的图像之间存在几乎1-1的对应关系。（当然，这通常不是真的，比如热图像和RGB图像之间的对应关系，所以我们将在下一节中讨论一般情况。）

回想一下，我们正试图发现两个相关图像域

和

之间的关系。在这两个域中的图像之间近似完美1-1对应的假设下，给定

和

为函数

使得

和反函数

对于反向映射

存在。对于接头密度，这意味着

，其中

是Dirac-delta函数（这让人想起（Viola&Wells III，1997）中用于跨域图像对准的约束）。然而，仅仅假设函数关系（或者甚至光滑的函数关系）不足以从边际分布中提取的样本推断

和

之间的有用对应关系。因此，我们需要额外的假设。

首先，我们假设

和

之间的关系不仅存在于图像级别，而且存在于局部补丁或区域级别。与其他深度网络类似，我们的模型通过使用卷积层来实现这一假设。然后，我们做了一个额外的、强有力的假设——对于任何给定的图像

和

，都存在一个共同的底层表示

，这样我们就可以从这个底层表示中恢复两个图像，并且我们可以从两个输入图像中的每一个计算这个底层表示。也就是说，我们假设存在函数

、

、

和

，这样，给定联合分布的样本

，

，反之，

和

。在该模型中，函数

从域

映射到域

可以由组成φ1表示

。

在更一般的图像翻译问题中，图像和表示之间的关系只是近似函数关系。也就是说，单个热图像可以对应于整个彩色图像范围，在特定像素颜色值（一种噪声）和全局颜色分配中都具有不确定性。因此，我们需要使用VAE和GANs的组合来学习统计分布，而不是简单地学习图像和表示之间的函数关系

、

、

和

。此外，在缺乏监督训练数据的情况下，我们还需要设计一个对抗性训练程序。在下一节中，我们将讨论如何使用UNIT框架实现上述思想。

3、UNIT结构

我们提出了用于无监督图像到图像翻译任务的无监督图像翻译（UNIT）网络框架。如图1所示，该框架的动机是最近的深度生成模型，包括变分自动编码器（VAE）和生成对抗性网络（GANs）。它由6个子网络组成：包括两个域图像编码器

和

，两个域映像生成器

和

，以及两个域对抗性鉴别器

和

。有几种方法可以解释子网络的作用，如表1所示。我们注意到，UNIT网络一次性学习双向翻译。在下文中，我们首先介绍UNIT框架，然后讨论设计注意事项。

VENs:

编码器-生成器对

构成

域的VAE，称为VAE

。对于输入图像

，VAE

首先通过编码器E1将其映射到潜在空间

中的代码，然后通过生成器

对该代码的随机扰动版本进行解码以重建输入图像。根据（Kingma&Welling，2013）中的VAE设计，我们假设潜在空间

中的分量是条件独立的和高斯的。编码器输出一个平均矢量

和一个方差矢量

，其中潜在码

的分布由

。diag算子将向量转换为对角矩阵，其中对角元素是向量的分量。重建的图像是

。注意，这里我们滥用了将

的分布视为

，

的随机向量并从中采样的符号。这种符号滥用避免了混乱的演示，在论文的其余部分可以找到这种符号滥用的其他几个例子。

类似地，

对构成

域的VAE：VAE

。编码器

输出一个平均矢量

和一个方差矢量

，并且潜在码

的分布由

。重建的图像表示为

。

利用重新参数化技巧，可以将不可微采样运算重新参数化为使用辅助随机变量的可微算术运算。这种重新参数化技巧允许我们使用标准反向运算算法来训练VAE。设

是一个具有多元高斯分布的随机向量：

。

的采样操作可以通过

来实现，其中◦ 是Hadamard乘积。类似地，

的采样操作实现为

。

权重共享

为了将两个VAE中的表示关联起来，我们强制执行权重共享约束。基于两个域中一对对应图像的高级表示应该相同的直觉，我们共享

和

的最后几层的权重，这两层负责提取两个域内输入图像的高级代表。类似地，我们共享

和

的前几层的权重，它们负责解码用于重建输入图像的高级表示。

注意，权重共享约束本身不能保证两个域中的一对对应图像将具有相同的潜在代码。一对对应图像的潜在代码通常是不同的。即使它们是相同的，相同的潜在成分在两个领域中也可能具有不同的语义。因此，相同的潜在代码仍然可以被解码以输出两个域中的两个不相关的图像。然而，我们将表明，通过对抗性训练，两个域中的一对对应图像将分别通过E1和E2映射到共同的潜在代码，并且潜在代码将分别通过

和

映射到两个域的一对相应图像。

和

的共享潜在空间允许我们执行图像到图像的转换。我们可以通过应用

将

中的图像

转换为

中的图像。我们将这种信息处理流称为图像翻译流。UNIT框架中存在两个图像翻译流：

和

。这两个流与图像重建流一起被联合训练。一旦我们确保一对对应的图像被映射到相同的潜在码，并且相同的潜在代码被解码到一对对应图像，

将形成一对对应图片。换句话说，

和

函数的组成是我们的

，用于第2节中讨论的无监督图像到图像的翻译，并且

和

函数的组成是我们的

GANs：

UNIT网络采用两个对抗性鉴别器：

和

。对于从第一个域数据集采样的图像，

应该输出true，而对于

生成的图像，它应该输出false。G1生成的图像可以是相同域的重建图像

或域转换图像

。类似地，

被训练为对于从第二域数据集采样的图像输出true，而对于从

生成的图像输出false。基于上面讨论的相同直觉，我们共享

和

的高层的权重。。

学习：

训练UNIT网络可以通过联合解决图像重建流和图像翻译流的VAE1、VAE2、GAN1和GAN2的学习问题来完成：

训练VAE通常是通过最小化负对数似然函数的变分上界来完成的。在（1）中，VAE对象函数由

其中超参数

和

控制目标函数的权重，KL代表Kullback-Leibler（KL）散度。KL发散项惩罚潜在代码的分布与先前分布的偏差。正则化允许一种从潜在空间进行采样的简单方法。我们使用由

给出的高斯对条件分布

进行建模。因此，最小化负对数似然项等于最小化图像和重建图像之间的欧几里得距离。同样的建模也应用于

。先验分布为

。

在（1）中，GAN目标函数由下式给出

（4）和（5）中的目标函数与标准GAN目标函数的不同之处在于，生成的图像来自两种不同的分布。对于（4），这两个分布是

（

中的输入图像的重构图像的分布）和q

（

中的输入图象的平移图象的分布）。优化（4）鼓励

输出从两个分布中采样的类似于来自

的图像的图像。类似地，优化（5）鼓励

输出从

和q

采样的类似于

的图像的图像。

UNIT训练问题继承了GAN，是一个极小极大问题，其中的优化是关于找到鞍点。它可以被看作是一个双人零和游戏。第一个玩家是一个由编码器和生成器组成的团队。第二个玩家是由对抗性鉴别器组成的团队。除了击败第二名选手外，第一名选手还必须将VAE损失降至最低。我们应用类似于（Goodfellow等人，2014）中描述的交替梯度更新方案来求解（1）。具体而言，我们首先应用梯度上升步骤来更新

和

，其中

、

、

和

是固定的。然后，我们应用梯度下降步骤来更新

、

、

和

，其中D1和D2是固定的。优化算法的细节在附录中的算法1中给出。

翻译：

一旦训练完成，我们通过组装UNIT网络中的子网络的子集来获得两个图像翻译函数。我们使用函数

，用于将图像从

转换为

，并使用函数

，用于将图像从

转换为

。

讨论：

我们在UNIT框架中使用VAE，原因如下：1）VAE是建立的生成模型。2）从VAE潜在空间中采样允许一种简单的形式，允许与GANs无缝集成（Larsen等人，2016）。3）在VAE采样步骤中注入的随机性有助于对图像翻译中的随机性进行建模：对于同一输入图像，可以通过随机扰动的不同实现来生成具有不同外观的对应图像。然而，对于无监督的图像到图像翻译任务，仅使用VAE（而不是UNIT）会有一个缺点，即目标函数中的任何项都没有在翻译的图像上定义——图像翻译流没有可用的反馈。纯VAE也倾向于产生模糊的图像。在UNIT框架中，GAN鉴别器解决了这些缺点。使用GAN损失训练的图像生成器可以生成清晰的图像（Larsen等人，2016；Ledig等人，2016）。更重要的是，GAN鉴别器是那些提供反馈以训练图像翻译流的鉴别器。

单独优化GAN损失不足以以无监督的方式学习图像到图像的翻译函数。权重共享约束对于鼓励从图像翻译流生成的图像类似于输入图像的翻译版本是必要的。权重共享约束设置了信息瓶颈。它限制了VAE中高层可用的表示功率的量。如果VAE潜在代码表示两个不同域中两个不同场景的两个图像，那么这两个图像将必须共享VAE高层的神经元。由于共享，每个图像将难以编码足够的细节来欺骗相应的GAN鉴别器。另一方面，如果潜在代码表示两个不同域中相同场景的两个图像，则两个图像都可以利用更多的能力来欺骗鉴别器，因为这两个图像的许多高级概念是相同的。信息瓶颈促使在两个域中生成相应的图像。当然，当网络的容量太大时，即使有权重共享约束，也没有共享表示的动机。在这种情况下，UNIT网络无法学习翻译功能。我们在实验部分验证了这些点。

4、实现

随机跳跃：

UNIT网络中的编码器负责将图像映射到表示图像流形的潜在空间。然而，随着编码器越来越深，在经过多层神经信息处理后，保存图像细节变得越来越困难。这导致模糊的图像重建和平移。为了克服这个问题，我们应用跳过连接将中间图像表示从编码器发送到解码器。跳跃连接应用于两个编码器共享权重的所有层。它们创建了用于传输不同粒度的图像表示的通道。请注意，我们不将跳过连接应用于编码器的前几层，因为这些层计算的表示在测试时间中不可用，所以权重不共享。

UNIT网络中的跳跃连接表示随机采样操作，符合VAE设计原则。设K是跳过连接的数量。注意，为了简化讨论，从最后一个编码器层到第一解码器层的连接被认为是跳过连接。

和

中第

个跳跃连接通过的表示是从

和

中提取的随机样本，其中

和

是多变量高斯分布，其均值和协方差由产生跳跃连接的编码层的中间表示给出。因此，从编码器传递到解码器的表示是来自多元高斯分布集合的样本的级联：

和

。

空间内容：

我们结合了空间上下文信息，以实现更好的图像翻译性能。对于每个输入图像，我们创建一个相同大小的y图像。y图像中的像素值是归一化的坐标，其中底部像素的值为1，而顶部像素的值则为-1。y图像沿着通道方向连接到输入图像，以创建到编码器以及对抗性鉴别器的最终nput图像。

我们使用ADAM对UNIT网络进行了训练。我们将学习率分别设置为0.0002，动量分别设置为0.5和0.999，如（Radford等人，2016）所示。在整个实验中，目标函数中的超参数设置为

=0.0001和

=0.00001。对于翻译大分辨率图像（≥480×480），由于内存大小有限，批量大小设置为2。否则，批次大小设置为64。我们在NVIDIA DGX-1机器中使用特斯拉P100卡训练UNIT网络。训练通常在一天内完成。我们的执行情况将公开。

5、实验

我们首先展示了UNIT框架在几个无监督图像到图像翻译任务上的图像翻译结果。（更多结果见附录。）然后，我们使用玩具数据集，通过一组广泛的实验，定量分析了各种设计选择。最后，我们将UNIT框架应用于无监督领域自适应任务。在整个实验中，我们强调在用于学习翻译功能的训练数据集中不存在相应的图像。

在第一个实验中，我们使用KAIST多光谱行人检测基准（Hwang et al.，2015）训练了一个UNIT网络，用于在白天和晚上的图像之间以及在热IR和RGB图像之间进行转换。KAIST数据集包含在一天中不同时间在城市的不同区域拍摄的几个视频序列。其中一些视频是在夜间拍摄的，而另一些则是在白天拍摄的。除了RGB视频序列外，还使用了热红外相机来捕捉热红外视频序列。视频中RGB和热红外图像的分辨率为640×512。我们在转导测试环境中操作，并将图像转换为原始分辨率。对于白天和晚上的图像翻译任务，我们创建了两个数据集，其中第一组包含从白天视频序列中提取的图像，第二组包含从晚上视频序列中的图像。数据集大小分别为54768和28657张图像。我们应用学习的UNIT网络来翻译这两个集合中的图像。结果如图2和图3所示。我们观察到UNIT将白天的图像转换为逼真的、相应的夜间图像。街灯在看似合理的地方产生幻觉。UNIT网络在夜间到日间的图像翻译方面也取得了良好的表现。

我们使用KAIST数据集中的白天视频序列来训练热IR和RGB图像转换的UNIT。我们把序列分成两组。对于第一组，我们只使用热红外图像，而对于第二组，我们仅使用RGB图像。在这两组中没有相应的热红外和RGB图像。这两组图像分别包含31386张和31191张。我们应用学习的UNIT网络来翻译这两个领域中的图像。结果如图4和图5所示。我们观察到，从热红外图像到RGB图像的转换是真实的。在热红外图像中没有观察到的树区域中的颜色梯度处于转换版本中。从RGB到热红外图像的转换也很逼真。云纹理图案在生成的热红外图像中被去除，因为该区域具有相同的热特征。

我们在加利福尼亚州捕获了两个驾驶序列数据集，用于训练一个用于晴天和雨天图像翻译的单元。第一组是在晴天拍摄的图像，而第二组是在雨天拍摄的图像。数据集分别包含11863张和2267张图像。我们应用学习的UNIT网络来翻译这两个领域中的图像。结果如图6和图7所示。我们发现，云层被添加到天空区域，当从晴天转换为雨天时，图像看起来很暗淡。另一方面，在将图像从雨天转换为晴天时，云被阳光所取代。

我们使用CelebFaces属性数据集（Liu et al.，2015）基于属性翻译人脸图像。数据集中的每张人脸图像都有几个属性，包括金发、微笑、山羊胡子和眼镜。具有属性的面部图像构成第一域，而不具有属性的脸部图像构成第二域。没有给出两个域之间的相应人脸图像。我们将图像的大小调整为132×132的分辨率，并随机采样128×128个区域进行训练。对于每个属性转换，我们训练了一个UNIT网络。在图8中，我们可视化了结果，其中我们将几个没有金发、眼镜、山羊胡子和微笑的图像转换为具有每个单独属性的相应图像。我们发现翻译后的人脸图像是真实的。

定量评估

众所周知，对生成模型的定量评估是一项具有挑战性的任务，流行的指标都存在缺陷（Theis等人，2016）。因此，我们开发了一个针对无监督图像翻译任务的评估协议，用于研究UNIT框架中单个组件的影响。我们使用MNIST数据集创建了一个玩具数据集，其中两个领域之间的地面实况图像转换函数是已知的。具体来说，我们将MNIST训练集划分为两个大小相等的不相交集。对于第一组中的数字图像，我们将笔划随机着色为红绿色或蓝色。对于第二组中的图像，我们首先计算边缘图像，然后将边缘随机着色为品红色-黄色或青色。我们训练了UNIT网络来学习两位数域之间的翻译函数。对于我们的评估，我们将MNIST测试集中的图像从一个域转换到另一个域，并比较由学习的UNIT转换函数转换的图像与由地面实况转换函数翻译的相应图像之间的欧几里得距离。请在附录中找到实验细节、性能数字（MNIST测试集中所有图像的平均欧几里得距离）和对各种设计选择的分析。我们在这里简要总结一下我们的发现：

•网络容量：当UNIT网络的容量过低时（例如，每层中有少量神经元），学习的翻译函数的质量下降；然而，当容量太高时，UNIT网络根本无法学习翻译功能。我们得出的结论是，设置适当的网络容量对UNIT框架非常重要。

•对超参数的敏感性：我们发现UNIT对学习超参数不敏感，并且λ1和λ2的大范围值（定义见（2）和（3））提供了可比的无监督图像翻译性能。

•权重共享：我们发现将权重共享约束应用于编码器和生成器至关重要。由于没有足够数量的权重共享层，UNIT无法学习翻译功能。

•消融研究：我们发现E1、E2、G1、G2、D1和D2对UNIT框架都至关重要。当去除D1和D2时，得到的网络变成了耦合的VAE网络。它仍然可以学习玩具数据集的翻译函数，但效果较差，输出的图像模糊。当删除其他子网络时，生成的网络无法学习图像翻译功能。

无监督域适配：

我们将UNIT框架应用于UDA问题，即，调整使用一个域（源域）中的标记样本训练的分类器，以对新域（目标域）中不可用的标记样本进行分类。UDA算法必须利用新域中的未标记样本来调整分类器。早期的UDA工作探索了从子空间学习（Fernando et al.，2013）到深度学习（Ganin et al.，2016；刘和图泽尔，2016；Taigman等人，2017）的思想。

我们使用了一种多任务学习方法，其中我们训练了一个UNIT网络来翻译源域和目标域之间的图像，并在源域中训练了对抗性鉴别器来对源域中的样本进行分类。由于在对抗性鉴别器的高层中强制执行的权重共享约束，目标域中经过训练的对抗性鉴鉴别器可以对目标域中的样本进行分类，从而继承源域鉴别器中的功率。我们没有使用单独训练的源域分类器来对UNIT翻译的样本进行分类，因为多任务学习方法在实践中表现更好，这可能是由于在训练中使用了目标域中的未标记数据。

我们将上述方法应用于将街景门牌号（SVHN）数据集（Netzer et al.，2011）中的分类器调整为MNIST数据集的任务。具体来说，我们训练UNIT网络来学习在SVHN和MNIST训练集之间翻译图像，以及使用SVHN域对抗性鉴别器提取的特征对SVHN训练图像中的数字类进行分类。在测试期间，我们应用目标域对抗性鉴别器对MNIST测试集中的数字类进行分类。我们在表9中报告了与竞争方法相比所实现的性能。我们发现，我们的方法实现了90.53%的准确率，这比以前最先进的方法实现的84.88%要好得多（Taigman等人，2017）。网络架构和额外实验的细节可在补充材料中获得。

6、相关工作

最近提出了几种用于图像识别的深度生成模型，包括GANs（Goodfellow等人，2014）、VAE（Kingma&Welling，2013；Rezende等人，2014年）、矩匹配网络（Li等人，2015）、PixelCNN（van den Oord等人，2016）和即插即用生成网络（Nguyen等人，2016年）。UNIT框架基于GANs和VAE，但它是为无监督的图像到图像翻译任务而设计的。在下文中，我们首先回顾了GAN和VAE最近的几部作品，然后讨论了相关的图像翻译作品。

GANs通过设置生成器和鉴别器玩的零和游戏来学习生成图像。自引入GANs以来，GANs生成的图像质量有了显著提高。（Denton等人，2015）提出了GANs的拉普拉斯金字塔实现。（Radford等人，2016）使用了更深层次的卷积网络架构。（Zhang et al.，2016）堆叠两个生成器来逐步渲染逼真的图像。InfoGAN（Chen et al.，2016）学习了一种更可解释的潜在表征。（Salimans等人，2016）提出了几种GAN训练技巧。（Arjovsky等人，2017）提出了Wasserstein GAN框架，用于更稳定的GAN训练。

VAE优化了图像似然函数的变分界。通过改进变分近似，获得了更好的图像生成结果（Maaløe等人，2016；Kingma等人，2016）。在（Larsen et al.，2016）中，提出了一种VAEGAN架构来提高VAE的图像生成质量。将VAE应用于中的人脸图像属性转换（Yan et al.，2016）。

通过条件生成模型的图像翻译现在是将图像从一个域映射到另一个域的流行方法。大多数现有的工作都是基于监督学习的（Ledig等人，2016；Isola等人，2016），需要在两个领域中获得相应的图像。我们的作品与之前的作品不同之处在于，我们不需要相应的图像。最近，（Taigman et al.，2017）提出了域变换网络（DTN），并在翻译小分辨率人脸和数字图像方面取得了很好的效果。除了人脸和数字，UNIT网络还可以翻译大分辨率的自然图像。它在无监督领域自适应任务中也取得了较好的性能。在（Shrivastava等人，2016）中，提出了一种基于条件生成对抗性网络的方法，将渲染图像转换为真实图像，用于视线估计。为了确保生成的真实图像与原始渲染图像相似，生成的图像与原始图像之间的L1距离被最小化。虽然这种方法可以生成更逼真的渲染图像，但它不适用于自然图像翻译任务。例如，对于将热图像转换为彩色图像的任务，转换后的彩色图像和输入热图像之间的L1距离没有意义。

7、结论和将来的工作

我们提出了UNIT框架——一个无监督图像到图像翻译的通用框架。我们展示了它学会了在训练数据集中的两个域中没有任何对应图像的情况下将图像从一个域翻译到另一个域。在未来，我们计划扩展该框架以处理半监督图像到图像的翻译任务，其中通过一组规则或几对相应的图像来监督域对应关系。我们也有兴趣将该框架扩展到无监督的语言到语言的翻译任务。

image translation 翻译函数网络

0 人点赞