作者 | 董诣博 编辑 | 李仲深
今天给大家介绍天津大学张长青教授等人的文章:“CPM-Nets: Cross Partial Multi-View Network”。该文章详细介绍了多视角学习的背景以及意义。作者从无监督学习出发,提出了交叉不完全多视角网络,这个模型考虑了不同视角之间的联系,也能良好应对数据缺失值。
一、研究背景
在现实生活中,物体通常可以由多个视角的信息来描述。比如,医学方面往往会对同一进行不同方面的检查,获得多方面的数据;再比如,网络上的数据通常包含文本、图像、视频等。因此,人们需要通过某些方式获得整合多个视角的数据,用统一的方式表述一个样本,并且该描述要完整,对不同类型数据分类准确度要高。
不同视角的数据往往有很强的相关性。典型关联分析(canonical correlation analysis,CCA)是将不同视角映射到相同空间的方法,但是受缺失值影响大。一种处理缺失值的方法是直接填充,填充时可以两两分组,训练出来两两之间的联系来填充;也可以根据可获得的数据来源来人工分组,以便学习到多个视角之间的联系来填充。
但是这些方法有个明显劣势:视角很多时分组不灵活,难以平衡有效性(effectiveness)和灵活性(flexibility)。为了解决上述问题,本文提出了CPM-Nets,用于将缺失的多视角的数据连接起来,并且平衡有效性和灵活性,能够降低缺失数据的影响并且提高学习效率。
二、模型与方法
2.1 模型概述
本文提出的CPM-Nets模型分为观测数据和分类标签两部分。信息的损失也对应这两部分,其中一部分是用共同的多视角表示h将观测数据S重构的函数f(·)带来的损失,另一部分是在共同的多视角表示h下分类函数g(·)带来的损失架构图1所示。
图1
图1中黑色为缺失数据。将有缺失值的多视角的数据输入,该表示方式根据缺失值降维并且编码,然后根据观测值和标签来填充完整,并且对该观测编码,提供准确预测值。
2.2 观测数据部分
假设在表示方式h下,样本S的分布符合正态分布,即
并且所有样本之间独立同分布。那么,从h映射到对所有样本(n=1……n),损失取自然对数后总和为
其中
为从h到S的映射f的参数,
表示样本n的第v个视角的数据是否缺失,缺失则为0,不缺失则为1。
2.3 分类标签部分
假设在表示方式h下,标签y也是一个视角,也服从正态分布,即
那么,损失取自然对数后是
其中
其中为从y到h的映射g的参数,是h的特征映射函数,表示类型y的潜在表示构成的集合。
取自然对数后,误分类损失为
2.4 观测数据和分类标签的综合考虑
基于两部分的分布和损失函数,损失函数初步确定为如下函数。
但是考虑到不同样本之间可信度不同,以及不同误分类损失不同,最终目标函数如下。
其中λ>0,用于平衡不同视角的观测数据和分类标签的可信度。
2.5 算法优化过程
本文采用梯度下降方法,具体过程如图2。
图2
三、实验结果
本文方法在应对缺失数据方面有很强优越性,受缺失数据影响远小于其他方法,并且准确度更高。如图3,η表示含有视角数据缺失的样本占比。
图3
本文方法在缺失数据比例相同(此处为0.5,50%样本在不同视角下观测值不完整)前提下,在不同类型的数据集下,准确度高于其他方法。如图4
图4
四、总结
本文为含有多视角的数据集提供了新颖的方法。它并不是将不同视角分开,而是整合在一起,映射到共同的空间h中,形成完整、准确的表示方式。相比于其他算法,本文的算法准确度高、受缺失数据影响小。未来应用前景广阔。
数据集
ORL 2 The dataset contains 10 facialimages for each of 40 subjects. _x0005_
PIE 3 A subset containing 680 facialimages of 68 subjects are used. _x0005_
YaleB Similar to previous work, we use asubset which contains 650 images of 10 subjects. For ORL, PIE and YaleB, threetypes of features: intensity, LBP and Gabor are used. _x0005_
CUB The dataset contains differentcategories of birds, where the fifirst 10 categories are used and deep visualfeatures
from GoogLeNet and text featuresusing doc2vec are used as two views. _x0005_
Handwritten4 The dataset contains 10 categoriesfrom digits ‘0’ to ‘9’, and 200images in each category with 6 types of image features are used. _x0005_
Animal The dataset consists of 10158 imagesfrom 50 classes with two types of deep features extracted with DECAF [40] andVGG19.
参考文献
ChangqingZhang, Zongbo Han, Yajie Cui, Huazhu Fu, Joey Tianyi Zhou, Qinghua Hu
“CPM-Nets:Cross Partial Multi-View Networks”
NeurIPS2019