多视角学习|CPM-Nets:交叉不完全多视角网络

2021-02-04 14:43:21 浏览数 (2)

作者 | 董诣博 编辑 | 李仲深

今天给大家介绍天津大学张长青教授等人的文章:“CPM-Nets: Cross Partial Multi-View Network”。该文章详细介绍了多视角学习的背景以及意义。作者从无监督学习出发,提出了交叉不完全多视角网络,这个模型考虑了不同视角之间的联系,也能良好应对数据缺失值。

一、研究背景

在现实生活中,物体通常可以由多个视角的信息来描述。比如,医学方面往往会对同一进行不同方面的检查,获得多方面的数据;再比如,网络上的数据通常包含文本、图像、视频等。因此,人们需要通过某些方式获得整合多个视角的数据,用统一的方式表述一个样本,并且该描述要完整,对不同类型数据分类准确度要高。

不同视角的数据往往有很强的相关性。典型关联分析(canonical correlation analysis,CCA)是将不同视角映射到相同空间的方法,但是受缺失值影响大。一种处理缺失值的方法是直接填充,填充时可以两两分组,训练出来两两之间的联系来填充;也可以根据可获得的数据来源来人工分组,以便学习到多个视角之间的联系来填充。

但是这些方法有个明显劣势:视角很多时分组不灵活,难以平衡有效性(effectiveness)和灵活性(flexibility)。为了解决上述问题,本文提出了CPM-Nets,用于将缺失的多视角的数据连接起来,并且平衡有效性和灵活性,能够降低缺失数据的影响并且提高学习效率。

二、模型与方法

2.1 模型概述

本文提出的CPM-Nets模型分为观测数据和分类标签两部分。信息的损失也对应这两部分,其中一部分是用共同的多视角表示h将观测数据S重构的函数f(·)带来的损失,另一部分是在共同的多视角表示h下分类函数g(·)带来的损失架构图1所示。

图1

图1中黑色为缺失数据。将有缺失值的多视角的数据输入,该表示方式根据缺失值降维并且编码,然后根据观测值和标签来填充完整,并且对该观测编码,提供准确预测值。

2.2 观测数据部分

假设在表示方式h下,样本S的分布符合正态分布,即

并且所有样本之间独立同分布。那么,从h映射到对所有样本(n=1……n),损失取自然对数后总和为

其中

为从h到S的映射f的参数,

表示样本n的第v个视角的数据是否缺失,缺失则为0,不缺失则为1。

2.3 分类标签部分

假设在表示方式h下,标签y也是一个视角,也服从正态分布,即

那么,损失取自然对数后是

其中

其中为从y到h的映射g的参数,是h的特征映射函数,表示类型y的潜在表示构成的集合。

取自然对数后,误分类损失为

2.4 观测数据和分类标签的综合考虑

基于两部分的分布和损失函数,损失函数初步确定为如下函数。

但是考虑到不同样本之间可信度不同,以及不同误分类损失不同,最终目标函数如下。

其中λ>0,用于平衡不同视角的观测数据和分类标签的可信度。

2.5 算法优化过程

本文采用梯度下降方法,具体过程如图2。

图2

三、实验结果

本文方法在应对缺失数据方面有很强优越性,受缺失数据影响远小于其他方法,并且准确度更高。如图3,η表示含有视角数据缺失的样本占比。

图3

本文方法在缺失数据比例相同(此处为0.5,50%样本在不同视角下观测值不完整)前提下,在不同类型的数据集下,准确度高于其他方法。如图4

图4

四、总结

本文为含有多视角的数据集提供了新颖的方法。它并不是将不同视角分开,而是整合在一起,映射到共同的空间h中,形成完整、准确的表示方式。相比于其他算法,本文的算法准确度高、受缺失数据影响小。未来应用前景广阔。


数据集

ORL 2 The dataset contains 10 facialimages for each of 40 subjects. _x0005_

PIE 3 A subset containing 680 facialimages of 68 subjects are used. _x0005_

YaleB Similar to previous work, we use asubset which contains 650 images of 10 subjects. For ORL, PIE and YaleB, threetypes of features: intensity, LBP and Gabor are used. _x0005_

CUB The dataset contains differentcategories of birds, where the fifirst 10 categories are used and deep visualfeatures

from GoogLeNet and text featuresusing doc2vec are used as two views. _x0005_

Handwritten4 The dataset contains 10 categoriesfrom digits ‘0’ to ‘9’, and 200images in each category with 6 types of image features are used. _x0005_

Animal The dataset consists of 10158 imagesfrom 50 classes with two types of deep features extracted with DECAF [40] andVGG19.

参考文献

ChangqingZhang, Zongbo Han, Yajie Cui, Huazhu Fu, Joey Tianyi Zhou, Qinghua Hu

“CPM-Nets:Cross Partial Multi-View Networks”

NeurIPS2019

0 人点赞