多视角学习 | 当自动编码器“遇上”自动编码网络

2021-02-04 14:41:57 浏览数 (1)

作者 | 张泽宇 编辑 | 肖棠 李仲深

今天给大家介绍天津大学张长青教授等人在CVPR2019上发表的文章“AE2-Nets: Autoencoder in Autoencoder Networks”。对多视角(Multi-view)数据进行学习是机器学习和计算机视觉中一个迅速发展的方向,虽然取得了一定成果,但大多算法仍集中于聚类和分类上。作者从无监督学习出发,提出了基于自动编码网络的自动编码器(Autoencoder in Autoencoder Networks,AE2-Nets),用于将多视角数据集成到一个统一的数据表示。这一模型不仅能够在统一的框架下实现单一视角的信息表示和多视角的信息编码,而且平衡了多视角信息之间的一致性与互补性。

一、研究背景

在现实世界中,同一实体是能够通过多个视角的数据来描述的,而由于特征提取方式和传感器的多样性,多个视角的数据往往高度异构。例如,一幅图像可以使用直方图和纹理两个视角来描述;在医学诊断中,往往也需要多个不同视角的医学影像来进行辅助描述。因此,人们提出了许多方法用于整合多个视角的数据,从而得出一个统一的数据表示方式,使实体的描述更为确切,并且能够更便捷地应用于机器学习算法。

不同视角的数据之间往往具有复杂的相关性。典型关联分析(Canonical Correlation Analysis,CCA)是学习统一数据表示的代表性方法,核典型关联分析(Kernel Canonical Correlation Analysis,KCCA)和深度典型关联分析(Deep Canonical Correlation Analysis,DCCA)分别使用内核技术和深度神经网络对其进行了优化。除此之外,偏最小二乘法(Partial Least Squares,PLS)回归和可变多视角联合降维算法(Flexible multiview dimensionality co-reduction,MDcR)也是解决相关问题的方法。

然而,现有的算法往往存在两个问题。首先,在如何平衡数据之间的一致性与互补性;另外,学习得到低维表示后不仅要用于分析,而且应该用于进一步的学习任务。因此,本文为了解决上述问题,提出了AE2-Nets,用于将多视角的数据自动整合为统一表示,并且自适应地平衡数据间一致性与互补性的关系,使后续学习任务的效果得到了提高。

二、模型与方法

2.1 模型概述

本文提出的AE2-Nets模型主要包括内部网络和外部网络,它首先通过内部网络将单个视角的数据学习为更为稠密的表示,然后学习一个多视角下的统一表示,并期望通过外部网络将该表示分解还原到各视角的数据表示,其架构如图1所示。

图1. AE2-Nets模型架构

2.2 内部网络

本文提出的内部网络由一个M层的全连接神经网络构成,输入为单个视角的数据表示,并将神经网络输出数据与输入数据之间的均方差作为损失函数(图2),在神经网络训练完成后选择第M/2层的节点作为该视角下稠密的新数据表示。

图2. 内部网络损失函数

2.3 外部网络

本文提出的外部网络也是一个全连接神经网络,其主要作用是希望将统一表示H,尽可能地还原为各视角在内部网络中训练出的稠密数据表示。

它的输入是随机初始化的H,输出是分解得到的各视角的数据表示,损失函数为输出数据与该视角对应的内部网络所得到的稠密表示之间均方差(图3)。

图3. 外部网络损失函数

在该外部网络中,不仅需要训练神经网络的各个参数,还需要训练数据的统一表示H。

2.4 内部网络与外部网络的耦合

本文将内部网络与外部网络进行耦合,在统一的框架下实现单一视角的信息表示和多视角信息的统一表示,平衡了多视角信息之间的一致性与互补性。将内部网络与外部网络中的损失函数按系数进行耦合,形成新的损失函数(图4),从而达到上述效果。

图4. 内部网络与外部网络耦合后的损失函数

其中,λ系数在其中体现了数据一致性与互补性的平衡。

2.5算法优化过程

本文使用梯度下降方法,对AE2-Nets的内部、外部神经网络参数和统一表示H进行训练优化(图5)。

图5. AE2-Nets算法优化过程

三、实验结果

本文使用了多种多视角数据集,与现有的多种方法在聚类(图6)、分类(图7)问题上进行了对比,在各项指标中均取得了较好的效果。在聚类和分类任务中,本文提出的方法在准确率等方面相比于现有方法有较大提升。

图6. 各方法在多视角数据下进行聚类任务的效果对比

图7. 各方法在多视角数据下进行分类任务的效果对比

四、总结

本文提出了一种无监督学习的数据表示学习模型,它并不是简单地将多视角数据映射到低维空间,而是在各个视角中学习出新表示后,通过自编码器整合为一个统一的数据表示。相比于现有的其它方法,AE2-Nets在实验中表现出的性能十分突出。未来,AE2-Nets可能向端到端学习延伸,从而发挥更大价值价值。


参考资料

C. Zhang, Y. Liu and H. Fu, "AE2-Nets:Autoencoder in Autoencoder Networks," 2019 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019, pp.2572-2580, doi: 10.1109/CVPR.2019.00268.

https://ieeexplore.ieee.org/document/8953969

数据集

https://archive.ics.uci.edu/ml/datasets/Multiple Features

http://www.vision.caltech.edu/ImageDatasets/Caltech101/

https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

http://www.cs.columbia.edu/CAVE/software/softlib/

http://www.vision.caltech.edu/visipedia/CUB-200.html

0 人点赞