0 前言
- 前几天,一位英特尔的小伙伴给公众号发了他们最近更新的GAN综述论文,已经挂在arxiv上,总结得非常不错,今天强推一波!
- Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy
- https://arxiv.org/pdf/1906.01529.pdf
- 作者: Zhengwei Wang is with V-SENSE, School of Computer Science and Statistics, Trinity College Dublin, Dublin, Ireland. e-mail: villa.wang.zhengwei@gmail.com Qi She is with Intel Labs, Beijing, China. e-mail: qi.she@intel.com Tom´as E. Ward is with Insight Centre for Data Analytics, Dublin City University, Dublin, Ireland. e-mail: tomas.ward@dcu.ie
- 本文不做详细解读,具体内容可参考原文。
1 概要
- 过去几年,生成对抗网络(GAN)得到了广泛的研究;其最重要而明显的影响是在计算机视觉领域,如合理自然的图像生成,图像到图像的转换,人脸属性编辑等等。
- 将GAN应用于实际问题,仍存在挑战,在此本文重点关注其中三个:(1)高质量的图像生成;(2)图像生成的多样性;(3)稳定的训练。
- 本文对GAN相关研究的进展进行了详细回顾,讨论其在计算机视觉中引人注目的应用,并提出一些有关未来研究方向的建议。
2 典型网络结构
- Fully-connected GAN (FCGAN)
- Semi-supervised GAN (SGAN)
SGAN是在半监督学习的背景下提出的,与监督学习(其中每个样本都需要一个标签)和非监督学习(其中不提供标签)不同,半监督学习具有一小部分示例的标签。与FCGAN相比,SGAN的鉴别器是multi-headed的,即具有softmax和Sigmoid,以对真实数据进行分类并分别区分真实和生成样本。作者在MNIST数据集上训练SGAN,结果表明与原始GAN相比,SGAN中的鉴别器和生成器均得到了改进。
- Bidirectional GAN (BiGAN)
- Conditional GAN (CGAN)
- InfoGAN
- Auxiliary Classifier GAN (AC-GAN)
- Laplacian Pyramid of Adversarial Networks (LAPGAN)
- Deep Convolutional GAN (DCGAN)
- Boundary Equilibrium GAN (BEGAN)
- Progressive GAN (PROGAN)
- Self-attention GAN (SAGAN)
- BigGAN
- Label-noise Robust GANs (rGANs)
- Your Local GAN (YLG)
- AutoGAN
- MSG-GAN
- 总结
3 代表性损失函数
- Wasserstein GAN (WGAN)
- WGAN-GP
- Least Square GAN (LSGAN)
- f-GAN
- Unrolled GAN (UGAN)
- Loss Sensitive GAN (LS-GAN)
- Mode Regularized GAN (MRGAN)
- Geometric GAN
- Relativistic GAN (RGAN)
- Spectral normalization GAN (SN-GAN)
- RealnessGAN
- Sphere GAN
- Self-supervised GAN (SS-GAN)
- 总结
4 常见应用
- 数据增强
- 图像合成
- 视频生成
- 特征生成
5 评估指标
6 未来&总结
GAN主要还是在图像视觉上有较大进展,NLP等领域相对滞后;一些其他数据模态例如时空序列等也相对探索较少;GAN的不良使用可能会对社会产生消极影响,例如在deepfake、伪造等方面进行恶意应用。