图表示学习01
机器学习并不是分析图形数据的唯一方法,但机器学习在提高我们建模、分析和理解图数据能力方面发挥着重要作用。
节点分类
其目标是根据有真实标签的训练集节点 V_{train} subset V 预测与所有节点 u in V 相关联的标签 y_u (可以是类型、类别、属性)。
节点分类乍一看似乎是标准监督分类的简单变体,但实际上有重要的区别——图中的节点不是独立同分布的。通常在建立有监督的机器学习模型时,我们假设每个数据点在统计上独立于其他数据点,否则我们可能需要建模所有输入点之间的依赖关系;我们还假设数据点是同分布的,否则,无法保证我们的模型能推广到新的数据点。节点分类是建模相互关联的数据点,而不是独立同分布的数据点。
事实上,许多最成功的节点分类方法背后的关键想法是显式地利用节点之间的连接。 一个特别流行的想法是利用同构性,即节点与图中的邻居共享属性的趋势[McPherson et al.,2001]。 例如,人们倾向于与拥有相同兴趣或人口结构的人建立友谊。 基于同源性的概念,我们可以建立机器学习模型,试图将相似的标签分配给图中的相邻节点[Zhou et al.,2004]。 除了同源性之外,还有结构等价[Donnat et al.,2018]等概念,即具有相似局部邻域结构的节点将具有相似的标签,以及异源性,它假定节点将优先连接到具有双异源标签的节点。 当我们建立节点分类模型时,我们希望利用这些概念并对节点之间的关系进行建模,而不是简单地将节点视为独立的数据点。
在训练过程中结合标记和未标记数据的模型的通用术语是半监督学习,因此可以理解该术语经常用于节点分类任务。 然而,要注意,半监督学习的标准公式仍然需要独立同分布假设,这对于节点分类不成立。 图上的机器学习任务很难符合我们的标准类别。
关系预测
根据具体的应用领域,该任务有许多名称,例如链接预测、图补全和关系推断,这里简单地称之为关系预测。
关系预测的标准设置是给出一组节点 V 和这些节点之间的一组不完整的边 mathcal{E}_{train} subset mathcal{E} ,我们的目标是利用这些部分信息来推断缺失的边。
聚类和社区检测
节点分类和关系预测都需要推断图数据中的缺失信息,在许多方面,这两项任务都是监督学习的图类似。 另一方面,社区检测是无监督聚类的图类似。
社区检测的挑战是仅给定输入图 G=(V,E) 来推断潜在的社区结构。
图分类、回归和聚类
在这些图分类或回归应用中,我们寻求对图数据进行学习,但不是对单个图的单个组成部分(即节点或边)进行预测,而是给我们一个多个独立图的数据集,我们的目标是对每个图进行独立的预测。 在图聚类的相关任务中,目标是学习一种无监督的图对间相似性度量。
【参考文献】
Hamilton W L. Graph representation learning[J]. Synthesis Lectures on Artifical Intelligence and Machine Learning, 2020, 14(3): 1-159.