作者 | 刘洛涛
审核 | 黄 锋
今天为大家介绍美国罗彻斯特理工大学Kishan KC, Rui Li等人于2021年2月发表在TCBB上的一篇文章:“Predicting Biomedical Interactions with Higher-Order Graph Convolutional Networks”。作者提出了一种端到端的深度图表示学习框架,名为高阶图卷积网络(HOGCN),用于预测生物医学实体之间的相互作用。该模型可以学习混合不同距离邻居的特征表示,以进行交互预测。作者与目前最先进的几个模型在多个数据集上进行了实验对比,结果表明作者的方法能够达到更好的预测效果。
1
摘要
近年来,图神经网络被提出用于有效地学习生物医学实体的表示,并在生物医学互作预测方面取得了令人满意的成果。这些方法只考虑近邻的信息,而不能从不同距离的邻居中学习到一般的混合特征。在本文中,作者提出了一个高阶图卷积网络(HOGCN)来聚合高阶邻域的信息,用于生物医学交互预测。具体来说,HOGCN收集不同距离的邻居特征表示,以获得生物医学实体的信息表示。对蛋白质-蛋白质、药物-药物、药物-靶标和基因-疾病互作网络的实验表明,HOGCN能够实现较为准确的预测,且HOGCN在有噪声的、稀疏的交互网络中表现良好。此外,基于文献的案例研究表明,这种新的预测结果是有证据支持的,这表明了作者模型的有效性。
2
模型
作者提出的高阶图卷积网络(HOGCN)主要由两部分组成:Encoder和Decoder。
Higher-Order Graph Encoder
一种高阶图卷积编码器,它通过聚合不同距离的邻域特征来生成生物医学实体的表示。特别地,作者采用了高阶图卷积层(HOGC)作为编码器的一个组成部分,以捕获这些特征,并从k距离的邻居中学习特征表示的线性混合。HOGC层定义为:
其中
是整数邻接幂的集合,
是邻接矩阵
的j次幂,
表示拼接。图2为P ={0,1,…,k},其中k为各HOGC层考虑的最大邻域阶数。当k=0时,HOGC层只考虑生物医学实体的特征,能够捕获各种生物实体之间的特征相似性,这相当于一个以生物医学实体的特征作为输入的全连接层网络。
Interaction Decoder
一个双线性解码器,它依赖于高阶图卷积编码器生成的表示来重建交互网络中的相互作用。作者采用双线性层融合生物医学实体Vi和Vj的表示,学习边缘的表示
。作者定义了一个简单的双线性层:
,
。然后将边的表示输入二层全连接网络,预测边
的概率
:
Training HOGCN
在HOGCN训练过程中,作者采用二元交叉熵损失对模型参数进行优化:
考虑所有交互作用的最终损失函数为:
预测模型(HOGCN)训练的算法如下:
3
实验
Experimental Design
实验中使用的数据集总结:
对比基准模型:
网络相似性方法——L3;
网络嵌入方法——DeepWalk、node2vec;
基于图卷积的方法——VGAE、GCN、SkipGNN.
Results
1、Biomedical interaction prediction
作者使用四种不同类型的互作数据集,将HOGCN与生物医学互作预测任务的各种基准模型进行比较,其结果如表3:
由于HOGCN可以在多个距离上学习节点特征的线性组合,因此可以从交互网络中提取更多有意义的表示。表3的结果表明,在真实的交互数据集上,作者的高阶邻域混合方法优于目前最先进的方法。
2、Exploration of HOGCN's drug representations
接下来,作者评估当高阶邻居的特征表示被聚合时,HOGCN是否学习有意义的表示。为此,作者在DDI网络上训练GCN、SkipGNN和HOGCN模型,以获得药物表征Z。使用t-SNE将学习到的药物表示映射到2D空间,并在图3中可视化。
图3显示了在考虑多个距离的邻域信息时药物表示的聚类结构。从图中可以看出,当模型聚合来自更远邻居的信息时,同一类别的药物在二维空间中彼此嵌入得很近。例如,青霉素类(DBCAT000702)中的24种药物(图3中用蓝色三角形标记)分散在GCN学习的表示空间中,因为GCN只考虑来自一阶邻居的特征聚合(图3a)。SkipGNN考虑从二阶邻居聚合特征,与GCNs相比显示出相对紧凑的簇(图3b)。HOGCN考虑了高阶邻域,并学习了图3c中紧凑聚类结构所显示的属于同一类别的药物的相似表示。该分析表明,HOGCN通过从不同距离的邻域聚合特征表示学习到了有意义的药物表示。
3、Robustness to network sparsity
接下来作者探讨基于网络交互预测模型对网络稀疏性的鲁棒性。
图4显示了HOGCN对网络稀疏性的鲁棒性。在不同的网络稀疏性下,HOCCN在所有任务中都有较强的性能。
4、Calibrating model's prediction
作者检验预测的置信度
是否表示为真实互作的可能性。
图5为GCN、SkipGNN和HOGCN的校准图(k=3)。对于DTI数据集,SkipGNN比GCN和HOGCN具有更好的定标效果(图5a),这表明二阶邻域信息是合适的,从远处聚合特征会使模型过于自信。对于其他数据集,GCNs对于所有预测的置信度相对过于自信。例如,在PPI(图5c)和GDI数据集(图5d)预测置信度为0.8的交互中,约有20%-30%的交互是真阳性的。相比之下,在DDI、PPI和GDI数据集上,HOGCN与GCN和SkipGNN相比获得了更低的Brier评分,这暗示了聚合高阶邻域特征用于校准预测的好处。这一分析表明,具有高阶邻域混合的HOGCN对生物医学相互作用做出了精确和校准的预测。
5、Impact of higher-order neighborhood mixing
在这个实验中,作者的目的是观察当k阶增加到允许模型聚合更远的邻域信息时HOGCN的性能。
图6为高阶邻域混合k, P={0,1,2,3,4,5}时HOGCN的比较。除k=0外,所有情况下,HOGCN的预测性能都随着训练交互次数的增加而提高。对于k=0的HOGCN,模型只考虑了生物实体的特征,即单位矩阵I,由于单位矩阵没有提供相互作用的信息,模型的性能较差。结果表明,HOGCN的性能对所有数据集的k超参数设置并不敏感,因为对于P ={3,4,5}的设置,没有明显的差异,并在不同的数据集取得了相似的性能。分析表明,3阶邻域(k=3)为所有数据集的交互预测提供了足够的信息,即使k值更大,性能仍保持稳定。
4
结论
作者提出了一种新的用于生物医学交互预测的深度图卷积网络。作者提出的模型采用高阶图卷积层来学习在不同尺度下混合邻居的特征表示。在四组交互数据集上的实验结果表明,该模型具有良好的鲁棒性。此外,实验还表明,通过考虑高阶邻域信息,HOGCN可以做出准确的和校准的预测。但是文中的方法依旧存在一些问题,比如它只考虑已知的相互作用来标记潜在的相互作用,生物医学信息还有其他来源,如生物医学实体的各种物理、化学和生物学特性等,可以提供关于相互作用的额外信息,未来可以将这些信息融入模型,得到更好的预测性能。
参考资料
文章地址
https://ieeexplore.ieee.org/abstract/document/9354550