公众号:尤而小屋 作者:Peter 编辑:Peter
图表征学习(Graph Representation Learning,也称之为图表示学习)是专门针对图数据域的技术,旨在将图结构中的节点转化为具有连续数值的向量表示,以便在这些表示上进行进一步的机器学习任务,如分类、聚类、链接预测等。
图表示学习通常用于处理各种复杂的关系数据,如社交网络、知识图谱、蛋白质相互作用网络、文本数据中的语义关系等。
图表征学习的目标是尽可能多地保留图的拓扑信息,将节点映射为向量表示。
主要分为基于图结构的表示学习和基于图特征的表示学习。
引言
许多复杂的系统具有图的形式,比如:
- 社交网络
- 生物网络
- 信息网络
传统上,通常将一个图表征为$G=(V,E)$,其中V为节点集合,E为边集合。传统的图表征在图的处理和分析上面临的挑战:
- 高计算复杂性:图的计算和处理采用一些迭代或者组合的方式
- 低可并行性:图中节点之间的耦合是E显式反应;不同的节点在不同服务器上会造成通信成本过高
- 机器学习方法的不适用性:传统机器学习或者深度学习假设数据样本可以用空间中的独立向量来表示,但是图数据中的节点在某种程度上是相互依赖的
图表征学习的两个目标:
- 原始图结构可以从学习到的表征向量中重建
- 学习到的表征空间可以有效地支持图推理
基于表征进行下游任务:节点分类、节点聚类、图的可视化和链接预测。
下面介绍3大图表征学习方法:
- 传统图嵌入方法
- 现代图嵌入方法
- 图神经网络
传统图嵌入方法
图嵌入的2个目标:重建原始图结构和支持图推理。传统图嵌入方法最初是作为降维技术进行研究的:
- 对图距离矩阵使用多维尺度变换(Multi-Dimensional Scaling , MDS),基于Isomap学习的表征近似地保留了低维空间中节点之间的距离。
- 局部线性嵌入(Locally Linear Embedding, LLE):将高维数据映射到低维空间中,同时保持数据的局部几何结构不变。LLE的基本思想是通过保持每个数据点与其最近邻之间的线性关系来描述数据的局部几何结构。
- 拉普拉斯映射(Laplacian Eigenmap, LE):基于拉普拉斯矩阵的正则化来得到节点的表征
- 局部保留投影(Locality Preserving Projection, LPP):它通过构建空间中各样本对之间的远近亲疏关系,并在投影中保持这种关系,在降维的同时保留空间中样本的局部邻域结构;是针对非线性LE的线性近似算法。
现代图嵌入方法
现代图嵌入分为3类:
- 保留图结构和属性的图表征学习
- 带有侧面信息的图表征学习
- 保留高级信息的图表征学习
常用的模型:矩阵分解、随机行走、深度神经网络及其变体等
保留图结构和属性的图表征学习
图的结构和属性是在很大程度上影响图推理的两个重要因素。图结构包含一阶结构和高阶结构(二阶结构和群落结构)。
(1)保留图结构的图表征学习
图结构:邻域结构、高阶接近度和群落结构
- 随机游走DeepWalk:采用随机行走来捕捉邻域结构(类比NLP的Skip-Gram模型)
- Node2Vec:定义节点图邻域概念,采用二阶随机行走策略来对邻域节点进行抽样;在广度优先抽样(Breadth-First Sampling, BFS)和深度优先抽样(Depth-First Sampling, DFS)之间平稳插值
- LINE(LINE: Large-scale Information Network Embedding):是一种基于局部相似性的目标传播(Locally Linear Embedding)方法,可保留一阶接近度和二阶接近度。LINE采用的是BFS策略
前面的3者都是属于浅层网络,很难捕捉到高度非线性的图结构,因此会得到次优的Embedding结果。
- SDNE(Structural Deep Network Embedding):是一种使用多个非线性层嵌入的深度模型,其可以捕捉高度非线性的网络结构。采用拉普拉斯特征映射LE的思想保留一阶接近度
- M-NMF:模块化非负矩阵因子化模型
(2)保留图属性的图表征学习
重点:保留所有类型图的传递性和有符号图的结构平衡性
带有侧面信息的图表征学习
侧面信息可以分为两类:
- 节点内容
- 节点和边的类型
(1)带有节点内容的图表征学习
- MMDW(Matrix Factorization with DeepWalk):一种半监督的图嵌入算法。基于DeepWalk衍生的矩阵分解方法 SVM算法 标签信息来寻找最佳边界
- TADW(Text Attributed DeepWalk):将节点和节点属性融合在一起。TADW首先证明DeepWalk方法其实就是矩阵分解方法的等价形式,然后将其等价的矩阵分解模型进行扩展,使其支持对属性信息的嵌入。
(2)异质图表征学习
异质图由不同类型的节点和边组成。
保留高级信息的图表征学习
高级信息指的是特征任务中的监督或者伪监督信息。两个部分:
- 保留网络结构,便于学习节点表征
- 建立节点表征和目标任务之间的联系(需要领域知识)
主要应用有下面3点:
(1)基于扩散核的信息扩散
将观察到的信息扩散过程映射为连续空间中的扩散核所模拟的热扩散过程。
(2)异常检测
图中的异常检测旨在推断结构上的不一致。
(3)图对齐
图对齐的目标是建立两个图中节点之间的关系,即预测两个图之间的锚链接。
图神经网络
基于深度学习方法分析图数据的挑战:
- 图的不规则结构
- 图的异质性和多样性
- 大规模图的出现
- 学科交叉与融合
与图相关的神经网络结构:
- 图循环神经网络Graph RNN
- 图卷积神经网络GCN
- 图自编码器GAE
- 图强化学习Graph RL
- 图对抗方法