多视角学习|CPM-Nets：交叉不完全多视角网络

作者 | 董诣博编辑 | 李仲深

今天给大家介绍天津大学张长青教授等人的文章：“CPM-Nets: Cross Partial Multi-View Network”。该文章详细介绍了多视角学习的背景以及意义。作者从无监督学习出发，提出了交叉不完全多视角网络，这个模型考虑了不同视角之间的联系，也能良好应对数据缺失值。

一、研究背景

在现实生活中，物体通常可以由多个视角的信息来描述。比如，医学方面往往会对同一进行不同方面的检查，获得多方面的数据；再比如，网络上的数据通常包含文本、图像、视频等。因此，人们需要通过某些方式获得整合多个视角的数据，用统一的方式表述一个样本，并且该描述要完整，对不同类型数据分类准确度要高。

不同视角的数据往往有很强的相关性。典型关联分析（canonical correlation analysis，CCA）是将不同视角映射到相同空间的方法，但是受缺失值影响大。一种处理缺失值的方法是直接填充，填充时可以两两分组，训练出来两两之间的联系来填充；也可以根据可获得的数据来源来人工分组，以便学习到多个视角之间的联系来填充。

但是这些方法有个明显劣势：视角很多时分组不灵活，难以平衡有效性（effectiveness）和灵活性（flexibility）。为了解决上述问题，本文提出了CPM-Nets，用于将缺失的多视角的数据连接起来，并且平衡有效性和灵活性，能够降低缺失数据的影响并且提高学习效率。

二、模型与方法

2.1 模型概述

本文提出的CPM-Nets模型分为观测数据和分类标签两部分。信息的损失也对应这两部分，其中一部分是用共同的多视角表示h将观测数据S重构的函数f(·)带来的损失，另一部分是在共同的多视角表示h下分类函数g(·)带来的损失架构图1所示。

图1

图1中黑色为缺失数据。将有缺失值的多视角的数据输入，该表示方式根据缺失值降维并且编码，然后根据观测值和标签来填充完整，并且对该观测编码，提供准确预测值。

2.2 观测数据部分

假设在表示方式h下，样本S的分布符合正态分布，即

并且所有样本之间独立同分布。那么，从h映射到对所有样本(n=1……n)，损失取自然对数后总和为

其中

为从h到S的映射f的参数，

表示样本n的第v个视角的数据是否缺失，缺失则为0，不缺失则为1。

2.3 分类标签部分

假设在表示方式h下，标签y也是一个视角，也服从正态分布，即

那么，损失取自然对数后是

其中

其中为从y到h的映射g的参数，是h的特征映射函数，表示类型y的潜在表示构成的集合。

取自然对数后，误分类损失为

2.4 观测数据和分类标签的综合考虑

基于两部分的分布和损失函数，损失函数初步确定为如下函数。

但是考虑到不同样本之间可信度不同，以及不同误分类损失不同，最终目标函数如下。

其中λ>0，用于平衡不同视角的观测数据和分类标签的可信度。

2.5 算法优化过程

本文采用梯度下降方法，具体过程如图2。

图2

三、实验结果

本文方法在应对缺失数据方面有很强优越性，受缺失数据影响远小于其他方法，并且准确度更高。如图3，η表示含有视角数据缺失的样本占比。

图3

本文方法在缺失数据比例相同（此处为0.5，50%样本在不同视角下观测值不完整）前提下，在不同类型的数据集下，准确度高于其他方法。如图4

图4

四、总结

本文为含有多视角的数据集提供了新颖的方法。它并不是将不同视角分开，而是整合在一起，映射到共同的空间h中，形成完整、准确的表示方式。相比于其他算法，本文的算法准确度高、受缺失数据影响小。未来应用前景广阔。

数据集

ORL 2 The dataset contains 10 facialimages for each of 40 subjects. _x0005_

PIE 3 A subset containing 680 facialimages of 68 subjects are used. _x0005_

YaleB Similar to previous work, we use asubset which contains 650 images of 10 subjects. For ORL, PIE and YaleB, threetypes of features: intensity, LBP and Gabor are used. _x0005_

CUB The dataset contains differentcategories of birds, where the fifirst 10 categories are used and deep visualfeatures

from GoogLeNet and text featuresusing doc2vec are used as two views. _x0005_

Handwritten4 The dataset contains 10 categoriesfrom digits ‘0’ to ‘9’, and 200images in each category with 6 types of image features are used. _x0005_

Animal The dataset consists of 10158 imagesfrom 50 classes with two types of deep features extracted with DECAF [40] andVGG19.

参考文献

ChangqingZhang, Zongbo Han, Yajie Cui, Huazhu Fu, Joey Tianyi Zhou, Qinghua Hu

“CPM-Nets:Cross Partial Multi-View Networks”

NeurIPS2019

linux 黑石物理服务器编程算法

0 人点赞