作者 | 夏枫
指导 | 刘向荣教授,曾湘祥教授
单位 | 厦门大学
研究方向 | 网络表示学习,药物发现
今天给大家介绍Bioinformatics期刊的一篇文章,“Graph embedding on biomedical networks: methods, applications and evaluations”。文章研究了图嵌入方法在生物医学网络分析上的应用,来自美国俄亥俄州立大学、美国哥伦布国家儿童医院、华中农业大学的研究者完成了该项工作。文章选取了11种具有代表性的图嵌入方法,对3个重要的生物医学链接预测任务:(1)药物-疾病关联(drug-disease association, DDA)预测,(2)药物-药物相互作用(drug- drug interaction, DDI)预测,(3)蛋白质-蛋白质相互作用(protein - protein interaction, PPI)预测; 以及2个节点分类任务:(1)医学术语语义类型分类,(2)蛋白质功能预测进行了系统的比较。通过实验结果证明了目前的图嵌入方法取得了良好的效果,在生物医学网络分析方面具有很大的潜力。
1、研究背景
图(又称网络)是一种非线性的数据结构,为了分析图数据结构,研究者提出了大量的图嵌入(又称网络嵌入或图表示学习)的方法去自动学习图中每个节点的低维特征表示。直观上看,图嵌入方法是通过学习低维表示来保留图的结构信息,从而完成像链接预测,社区检测,节点分类和聚类等相关任务。现在图数据结构已经被广泛用于表示生物医学中的实体(节点)及其关系(边)。分析生物医学的图结构对于像药物重定位,非编码RNA的功能检测以及协助临床的决策等重要的医学任务都有重要的意义。到目前为止,大多数的图嵌入方法都是在社会网络和信息网络上进行评价,而在生物医学网络上还没有进行系统的实验和分析。另一方面,各种生物医学网络分析任务,矩阵分解等传统技术(可视为一种图嵌入方法)取得了可喜的成果,因此有必要系统地评估最近的图嵌入方法(如基于随机游走和基于神经网络)在生物医学任务上的可用性和进一步发展为最先进技术的潜力。(图1总结了将各种图嵌入方法应用于生物医学任务中的流程。)
图1 各种图嵌入方法应用于生物医学任务中的流程
2、主要贡献
(1)提供了现有图嵌入方法的概述,及其在生物医学上三个重要的链接预测任务(DDAs, DDIs和PPIs)和两个节点分类任务(蛋白质功能预测与医学术语语义类型分类)上的应用。
(2)对于以上5个任务,编制了7个基准数据集(这些数据集来源于常用的生物医学数据库或已有的研究),并使用它们来系统地评估11个不同类别中有代表性的图形嵌入方法(其中5个基于矩阵分解(MF),3个基于随机游走,3个基于神经网络)。对来自大量实验的结果进行了讨论,并且提供了如何选择嵌入方法(包括其超参数设置)的一些见解和指南。
(3)开发了易于使用的Python程序包,其中包含BioNEV(生物医学网络嵌入评估)的详细说明,可见网站: https://github.com/xiangyue9607/BioNEV,包括所有源代码和数据集,以方便研究各种生物医学任务的图形嵌入方法。
3、图嵌入方法概述
在本节中,将图嵌入方法分为三类,分别是基于MF的方法,基于随机游走的方法和基于神经网络的方法,并对这些方法进行了概述。
- 基于MF的方法:MF已经被广泛用于数据分析,它的目的是将一个数据矩阵分解为低维矩阵,同时保留原数据矩阵中隐藏的流形结构和拓扑特性。传统MF有许多变体,例如奇异值分解(SVD)和图分解(GF)。近年来,研究人员专注于设计各种高阶数据邻近矩阵以保留图结构,并提出了各种基于MF的图嵌入学习方法。文中介绍了GraRep, HOPE,GraRep方法的特点和区别。
- 基于随机游走的方法:受word2vec模型的启发,针对图数据结构开发了基于随机游走的方法,即通过随机游走生成“节点序列”来学习节点表示形式,然后再对生成的节点序列进行嵌入。DeepWalk是这种基于随机游走进行图嵌入最早的方法之一。与DeepWalk相比,node2vec采用了灵活的偏差随机游走策略, struc2vec可以更好地识别结构标识。
- 基于神经网络的方法:近年来神经网络模型在许多领域成功应用,在图形嵌入领域也引入了多种神经网络,例如多层感知器(MLP),自编码器,生成对抗网络(GAN)和图卷积网络(GCN)。文中具体介绍了LINE,DNGR,SDNE,GAE,GraphGAN这些方法。
在这个部分,作者选择了基于MF的5种,基于随机游走的3种,基于神经网络的3种共11种具有代表性的图嵌入方法,回顾它们在3种流行的生物医学链接预测任务和2种生物医学节点分类任务上的应用情况。
4.1 链接预测
链接预测任务可以表述为:给定一组生物医学实体及其已知的相互作用,去预测实体之间潜在的相互作用。生物医学领域的传统方法主要是通过特征工程来开发生物学特征。之后,监督学习方法(例如支持向量机器(SVM),随机森林)或半监督的图推理模型(如标签传播)也被用于预测潜在的相互作用。这些方法背后的假设是,共享相似生物学特征或图特征的实体可能具有相似的关联。然而,基于生物学特征的方法通常面临两个问题:(i)生物学特征获取困难,成本高且不一定能用。(ii)生物学特征以及手工制作的图形特征(例如节点度),不足以精确的表示或描述生物医学实体,并且可能无法为许多应用程序构建健壮和准确的模型。
自动学习节点表示的图嵌入方法有望解决这两个问题。比如针对三个重要的链接预测任务:1)DDA的预测:基于MF的技术用于DDA的预测,其本质上,是将DDA矩阵分解来学习药物和疾病在潜在空间中的低维表示。在因子分解过程中,可以加入正则化项或约束来进一步提高潜在表示的质量。2)对于DDIs的预测,提出了多种正则化MF,利用Laplacian正则化来学习更好的药物表征。此外,还引入了图神经网络用于DDI的预测。3)PPIs通常使用Laplacian和SVD技术进行预测。现在有研究提出了一种基于自动编码器的模型来学习蛋白质的嵌入,其设计与SDNE相似。
4.2 节点分类
节点分类是图分析中最重要的应用之一,它的目的是预测局部标记图中未标记节点的类别。在这里,作者主要关注两个节点分类的应用。
1)蛋白质功能预测
大规模的实验对蛋白质的功能注释非常昂贵,近年来提出了基于图的计算方法广泛地融合了图嵌入的思想。例如,一种基于拉普拉斯核的正则化方法来学习蛋白质的低维嵌入;Mashup方法在PPI网络上执行带有重启的随机游走(RWR),通过低秩矩阵近似方法(可通过SVD优化)学习每个蛋白质的嵌入,再将这些特征向量输入分类器以获得关于基因或蛋白质的功能性信息;DeepGO通过卷积神经网络和图形嵌入方法学习基于蛋白序列的蛋白联合表达和PPI网络(类似于DeepWalk);node2vec嵌入方法在PPI网络上进行蛋白质的节点分类也是非常有效的。OhmNet可以基于node2vec优化分层依赖目标,以学习多层组织网络中的特征表示,用于功能预测;deepNF通过一个深度自编码器来学习蛋白质的嵌入(类似于SDNE)。
2)医学术语语义类型分类
在过去的几年里,临床文献的增加一直在鼓励研究者开发出能够从这些数据中挖掘有用信息的模型,进而来改善患者的个人护理以及帮助临床决策。由于原始临床文本访问的限制,医学术语语义类型的缺失等种种原因,针对医学术语语义类型的分类虽然很有意义,但已有的研究很少。因此,本文作者的研究团队制定了一个节点分类任务(如下图2):给定医学术语共现图,其中的术语和共现统计是从公开的临床文本中提取出来的,对医学术语的语义类型进行分类。在这项工作中,作者假设临床文本已转换为医学术语-术语共现图,其中每个节点是一个提取的医学术语,每条边是一个上下文窗口中两个术语的共现的次数。将图嵌入方法应用于共现图来学习医学术语的表示,然后利用学习到的嵌入表示训练多标签分类器对医学术语进行语义分类。
图2 (a)医学术语-术语共现图是如何构建的,(b)图中节点类型的分类
4.3 实验总结
为了说明图嵌入方法在上述生物医学应用中的研究现状,作者将11种图嵌入技术按3类进行了总结,这些技术应用于特定任务的现有工作如表1所示。
表1
5、实验
作者在本节中介绍了7个编制数据集的详细信息,包括两个DDA图,一个DDI图和一个PPI图用于链接预测;一个医学术语-术语共现图和两个PPI图用于节点分类。并对11种图嵌入方法在这些数据集上的运算进行了全面的比较。数据集具体构建的方法见原文,7个数据集最终的详细信息如表2所示,11种图嵌入的方法在链接预测中计算得到的AUC的值如表3所示,在节点分类中的计算结果如表4 所示。
表2
表3
表4
除此之外,作者总结了一些设置超参数的通用原则,帮助研究人员更好地设置超参数。表5给出了不同嵌入方法所选择的一些超参数及其意义。
表5
6 总结
在这个工作中作者概述了各种图嵌入技术,并对它们在链接预测和节点分类两个重要的生物医学任务上的性能进行了评估。具体来说,作者从公共数据库或以前的研究中编制了7个数据集,并利用这些数据库对11种有代表性的图嵌入方法进行了基准测试。通过大量的实验,发现了目前的图嵌入方法在各种生物医学预测任务中表现良好,并且与现有的方法相比,具有很强的竞争力或更好的性能。因此,这些最新的图嵌入方法可以作为设计未来生物医学预测任务高级模型的起点。此外,作者调整了图嵌入方法的一些重要超参数,并为从业者提供了设置超参数的一般指导。作者也讨论了最近的网络传播(扩散)方法与图嵌入方法之间的联系,以及潜在的方向(如图嵌入的转移学习),以启发未来的工作。
参考资料
Yue X, Wang Z, Huang J, et al. Graph Embedding on Biomedical Networks: Methods, Applications, and Evaluations[J].Bioinformatics, 2019.
编辑:王建民
DrugAI
本文为DrugAI原创编译整理, 如需转载, 请在公众号后台留言。