[NeurIPS 2021 Dataset and Benchmark Track]
GraphGT: 图生成和图变换的机器学习数据集
作者: Yuanqi Du · Shiyu Wang · Xiaojie Guo · Hengning Cao · Shujie Hu · Junji Jiang · Aishwarya Varala · Abhinav Angirekula · Liang Zhao
机构: George Mason University, Emory University, Tianjin University, Thomas Jefferson High School, JD.COM Silicon Valley Research Center
GraphGT,一个针对基于机器学习的图生成和图转化的大规模数据集。作者制作、收集、分类、重新格式化了涵盖6个学科的36个数据集用于基于机器学习的图生成和图变换,其中包含了作者自己搜集制作的CollabNet 和7个脑网络的数据集以及8个由其他领域再利用(repurpose)的数据集。除此之外,作者对这些数据集提供了系统的分类和评估,将本领域模型评估的过程标准化。
论文简介
图表征学习和图生成是图机器学习的两个主要方向。前者致力于将离散的图结构信息编码至低维向量,随着DeepWalk、GCN、GAT等架构,CORA、PUBMED、CITESEER等benchmark的提出,图表征学习在过去几年取得了井喷式发展。相比之下,基于机器学习的图生成致力于从低维向量中构建图结构。它的训练过程与传统的图模型相比不会过度依赖先验知识和手动干预,并且在分子设计、移动网络(mobility network)合成、蛋白质折叠建模等领域有着广泛的应用,因此近年来取得了越来越多的关注。然而,本领域现有的数据集存在以下缺陷:1)由于复杂的图结构,不同领域的图需要经过繁琐的处理为人所用;2)现有的数据集仅仅覆盖了有限的领域,如分子、引用网络(citation networks);3)缺少明确的任务分类以评估不同类型数据集的表现;4)缺少明确统一的结果衡量标准;5)缺少全面的模型比较分析。为了弥补这些缺陷,本文作者制作、收集、分类、重新格式化了涵盖6个学科的36个数据集用于基于机器学习的图生成和图变换,其中包含了作者自己搜集制作的CollabNet 和7个脑网络的数据集以及8个由其他领域再利用(repurpose)的数据集。除此之外,作者对这些数据集提供了系统的分类和评估,将本领域模型评估的过程标准化,并且搭建了一个Python API和相应的tutorials共社区使用。
相关资料地址:
主页 (包含所有数据集下载链接)
https://graphgt.github.io/
GitHub主页
https://github.com/yuanqidu/GraphGT
相关工作Survey
https://github.com/yuanqidu/awesome-graph-generation A Systematic Survey on Deep Generative Models for Graph Generation: https://arxiv.org/pdf/2007.06686.pdf
图(graph)是一种用来描述个体单位(node)之间的链接(edge)的无处不在的数据结构。离散的图结构和数据挖掘和机器学习领域使用的连续数值向量的转化是本领域的核心问题。据此,当前图机器学习的研究可以分为2个方向:1)图表征学习将图结构信息编码至低维向量中;2)图生成从低维向量中重建图结构。在过去几年图表征学习在机器学习领域迎来了爆发式增长。DeepWalk,GCN,GAT等模型被相继研发出来并应用在不同的任务重,包括节点分类(node classification)、链接预测(link prediction)、聚类(clustering)等。
与之相比,基于机器学习的图生成(graph generation)和图转化(graph transformation)开始获得了越来越多的关注。随机图(random graph)和随机分块模型(Stochastic Block Model)等传统图模型要求很强的先验知识和手动干预。相比之下,基于机器学习的图生成和图转化可以端到端(end-to-end)地学习未知的图生成和转化过程,在分子设计、移动网络合成、蛋白质折叠统计建模等领域有着巨大的潜力。最近几年,针对不同的任务,图生成领域涌现了大量的工作,例如GraphVAE、MolGAN、JT-VAE等。
尽管图表征学习领域有着海量的数据来实现对模型的训练,如CORA用于节点分类、OAG用于链接预测、Molecule-LENET用于图层面的预测任务。相比之下,基于机器学习的图生成仍然处于起步阶段并且缺少不同应用和图片类型的完善的数据集。总之,图生成和图转化领域面临以下瓶颈:1)由于复杂的图结构,不同领域的图数据需要经过繁琐的处理才能为人所用;2)现有的数据集仅仅覆盖了有限的领域,如分子、引用网络(citation networks);3)缺少明确的任务分类以评估不同类型数据集的表现;4)缺少明确统一的结果衡量标准;5)缺少全面的模型比较分析。
为了解决这个瓶颈,作者制作了GraphGT,一个针对基于机器学习的图生成和图转化的大规模数据集。作者制作、收集、分类、重新格式化了涵盖6个学科的36个数据集用于基于机器学习的图生成和图变换,其中包含了作者自己搜集制作的CollabNet 和7个脑网络的数据集以及8个由其他领域再利用(repurpose)的数据集。除此之外,作者对这些数据集提供了系统的分类和评估,将本领域模型评估的过程标准化。
图生成和图转化的问题定义
图G可以被表示为(V,E,F,A),其中V代表节点的集合,E是节点间链接的集合,A是链接的特征,F是节点的特征。图生成 图生成致力于从已经设计好的概率模型中抽取新的图。即,给定一组拥有任意数量节点和边的图样本,图生成模型从中学习图样本的分布p(G),并从次分布中抽取新的图。根据生成图的大小,图生成任务可以被分成两类:1)图节点数量固定的图生成。例如在人脑网络中,脑区的数量在不同样本中通常是固定的;2)图节点数量在不同图样本中变化的图生成。例如不同的分子可以被视为拥有不同数量原子的图。这两类图生成任务可以在不同类型的数据集上实现。
根据生成的过程,图生成模型可以被分为两个分支:1)一次性生成(one-shot generation);2)依次生成(sequential generation),其中一次性生成为生成图的特征建立了概率分布。随后图结构可以由满足最大似然的节点和边一次性得到。与之相比,依次生成将图生成过程塑造成一个序列过程,并且依次生成节点和边。
图转化
图转化致力于将一个源领域(source domain)的图转化成目标领域的图,也可以被视作基于源领域的图的图生成。例如在神经科学中,通过图生成的技术人们可以通过神经的结构连通性来研究功能连通性。图转化问题可以表示成为一个映射的形式:T(V_0, E_0, E_0, F_0)==>T(V’,E’,E’,F’)即从一个源领域的图到目标领域的图的映射。根据映射的对象,图转化问题可以分为三类:1)节点转化将节点和结点的特征从源领域转化至目标领域;2)链接转化将图的拓扑结构以及链接特征从源领域转化至目标领域;2)节点-链接同时转化,顾名思义,即将节点、链接以及他们的特征同时从源领域转化至目标领域。
图转化领域最近的研究涵盖了上述三类问题。DCRNN整合了扩散卷积以及seq2seq的框架来处理节点转化问题。GCPN可以用来对化学反应建模。JT-VAE可以用于对分子进行优化。
作者分类整理了横跨6个学科,9个领域的36个数据集如下, 一共包括蛋白,脑网络,交通网络,物联网网络,验证网络,社交网络,分子图,多体模拟,点云骨架图,与多个模拟数据集等:
作者同时从图生成和图转化的不同方法角度分类了数据。在图生成上面,按照所包含图的长度分为,等长和变长的。在图变换上,按照所包含的图变化种类氛围节点变换,连接变换和节点连接一同变换,如下:
作者还提供了几种对比方法在不同数据集上的测试结果。作者在测试中采用了统一且标准的衡量标准来比较不同的任务表现。这些衡量标准包括针对两个图的节点度计算Jensen–Shannon距离、Bhattacharyya距离以及Wasserstein距离。同时作者还采用了基于统计方法的衡量标准,比如节点度分布(node degree distribution)、聚类系数分布(clustering coefficient distribution)以及轨道计数分布(orbit count distribution)。
在图生成任务中,作者评估了GraphGT中的15个数据集以及GraphRNN、GraphVAE、GraphGMG等三个常用的生成模型,并且采用节点度分布、聚类系数分布以及轨道计数分布等三项衡量标准来评估生成表现。其中GraphVAE和GraphGMG不能够处理大型的数据集,比如METR-LA, Protein, Enzyme等。由于GraphRNN采用了依次生成的方式生成图,因此可以处理大型的数据。但是CollabNet也是大型的数据集,甚至不能够被GraphRNN处理。在下图中我们可以看到,GraphRNN在几乎所有数据集上的表现超越了GraphVAE和GraphGMG,尤其是在包含小图的数据集上,例如Profold、N-body、Skeleton。但是GraphRNN在大型图数据例如交通网络上表现相对较差。GraphVAE在CLEVR和N-body-charged数据集上表现较好。这两个都是小型数据集并且生成方式更加随机。GraphGMG只在skeleton数据集上表现较好,该数据的图结构相对固定并且简单。我们相信一次性生成的方式能够更加容易地学习到空间位置相关的拓扑结构,因为该方法不需要学习次序依赖地过程。详细的图生成任务的结果如下:
在图转化任务中,作者评估了GraphGT中的17个数据集以及Interaction network(IN)、Node-Edge Co-evolving Deep Graph Translator(NEC-DGT)两种图转化模型。作者采用Jensen–Shannon距离、Bhattacharyya距离以及Wasserstein距离作为图转化任务的衡量标准。我们发现两种模型在大多数数据集中有着相似的表现。这并不令人惊讶,因为两种模型遵循相似的处理节点相互作用的逻辑。IN可以处理边特征,因此适用于Brain-emotion数据集而不适用于TwitterNet数据集。相比之下,NEC-DGT能够同时处理节点特征和边特征。值得一提的是,8个脑网络数据集同时在NEC-DGT上相比IN实现了更好的结果。这有可能归因于脑网络的复杂性需要更加先进的模型来处理。N-body-charged和N-body-spring数据集相比其他数据集有着更小的距离值,这是因为在物理生成领域图的规模通常较小。图转化任务的结果如下:
使用数据请引用以下文献:
Yuanqi Du, Shiyu Wang, Xiaojie Guo, Hengning Cao, Shujie Hu, Junji Jiang, Aishwarya Varala, Abhinav Angirekula, Liang Zhao. GraphGT: Machine Learning Datasets for Deep Graph Generation and Transformation. The 35th Conference on Neural Information Processing Systems (NeurIPS 2021), Datasets and Benchmarks Track.