作者 | 熊展坤
审核 | 黄紫阳
今天给大家介绍一篇来自上海科技大学郑杰教授课题组在2021年7月份发表在《Bioinformatics》上的一篇文章《KG4SL: knowledge graph neural network for synthetic lethality prediction in human cancers》。本文使用了知识图神经网络方法来进行癌症合成致死的预测任务。
1.摘要
动机:合成致死(synthetic lethality,SL)是发现抗癌药物靶点的一个有前途的方法。对于SL pair的湿实验筛选存在成本高、成批效应和脱靶等问题。目前用于SL预测的计算方法包括基因敲除模拟、基于知识的数据挖掘和机器学习等方法。大多数现有的方法倾向于假设SL pair是相互独立的,而没有考虑到潜在的共享的生物机制。虽然一些方法已经结合了基因组和蛋白质组数据来帮助SL预测,但这些方法涉及手工特征工程,并且严重依赖领域知识。
结果:本文提出了一种新的基于图神经网络(GNN)的KG4SL模型,将知识图(KG)消息传递纳入到图神经网络预测中。该模型利用包括基因、化合物、疾病、生物过程在内的11种实体和24种可能与SL相关的关系构建,通过对KG进行信息传递,有助于利用独立性问题,避免人工特征工程。作者的模型在AUC,AUPR和F1指标上优于所有最先进的baseline方法。作者进行了大量的实验,将KG4SL与无监督的TransE模型、一个普通的图卷积网络模型以及它们的组合的比较,证明了将KG纳入GNN中对SL预测的显著影响。
2.Introduction
复杂的生物系统不是由大量的基因独立作用而组成的,而是依赖于基因之间的相互作用,一种常见的抑制作用是合成致死,这是一个很有前途的癌症药物策略。如果在肿瘤细胞中发现一个特定的基因失活,抑制其SL伴侣基因的药物可以导致肿瘤细胞死亡,但正常细胞不会死亡。因此,SL是抗癌药物靶点的很有前景的研究方向,研究人员为此付出了大量的努力。
用于SL预测的计算方法可以分为三类。第一种是使用代谢网络模型来进行计算机模拟,第二种是面向知识的方法,主要是利用特定领域的知识进行特征工程。
然而,上述两类都严重依赖于代谢网络模型、领域知识和基因组数据,没有充分利用已知SL pair的有价值信息。为了利用现有的SL数据,第三类方法应用机器学习算法,其中特征是基于领域知识和启发式函数设计的。其中,现有的基于GNN的方法往往将每个SL pair视为一个独立的样本,并没有尝试考虑其潜在的生物学机制。并且现有方法,支持向量机,随机森林(RFs), SL2MF和GRSMF等等注入了一些基因组和蛋白质组数据来促进SL预测,这些研究的结果强调了整合额外信息的重要性。同时,基于GNN的方法也可以对输入特征等信息进行编码。但是,这些方法都是基于领域知识手工提取特征,可能会遗漏一些特征。因此,需要一种能够自动进行知识集成和特征提取的新方法。
知识图是一种多关系图,其中节点和边具有不同的类型。通过将KG合并到GNN中,可以通过直接在图中引入这些潜在因素作为节点来缓解上述独立性问题。在此,作者提出了一种新的基于kgnn的SL预测方法KG4SL,该方法利用KG MP作为后端。作者通过在KG中注入各种可能与SL相关的生物过程、疾病、化合物等因素来解决独立性问题。模型由三部分组成。在第一部分中,作者从每个基因的原始KG推导出一个基因特异性子图。在第二部分中,作者在基因特异性子图上进行MP,自动将基因与可能在识别SL pair中起决定性作用的因素关联起来。在第三部分中,作者定义了一个以监督方式重构基因-基因相似度的译码器。这是第一个将KG与GNN集成用于SL预测的框架。作者将模型与10种最先进的SL预测方法进行了比较,KG4SL在ROC曲线下面积(area under ROC curve, AUC)、precision-recall曲线下面积(area under precision-recall curve, AUPR)和F1方面都优于所有baseline方法。该工作的另一个贡献是作者研究了KG的影响,这表明在GNN中引入KG结合MP过程可以显著提高SL预测性能。
3.模型框架
1.数据提取
SynLethDB (http://synlethdb.sist.shanghaitech.edu.cn/v2/#/)是一个合成致死基因对的综合数据库。其最新版本包括一组36402对human SL,以及一个包含11种实体和24种关系的KG,如表所示。SynLethDB还包括负SL pair,即Non-SL和synthetic rescue对。然而,已知的负SL pair要比已知的正SL pair少得多。为了使正、负样本平衡,作者随机选取未知对作为负对,使正、负SL pair数量相等。因此,最终的SL数据集包含了10004个基因之间的72804对基因关系。
KG表示为SynLethKG,包含11个实体之间的24种关系。在24种关系中,有16种直接与基因有关,如(gene, regulates, gene)、(gene, interactions, gene)、(gene, co- vary, gene)。其他8种关系与药物和化合物有关。11种实体中有7种与基因直接相关,即途径、细胞成分、生物过程、分子功能、疾病、化合物和解剖。它们以(基因、关系、实体)的形式存在。在去除孤立节点后,最终得到的SynLethKG图包含了54012个节点和2231921条边,如表所示
2.KG4SL方法
2.1Gene-specific 加权子图
给定一个SL相关的基因,作者首先从KG中构建了一个加权子图,识别出相关的节点和决定边的权重是两个关键步骤。在本研究中,作者为每个实体抽取固定数量的k个邻居来表征其局部结构,并重复该过程H跳(H >=1).特别地,如果一个节点的邻居数小于k,会被进行重复采样,即一个邻居可能会被多次采样。边上的权重代表关系的重要性,对于一个SL pair
,边的权重
在
子图中的计算方式是
其中,
分别是基因和关联的embedding。
2.2 节点表示的聚合
作者对于子图中的每个节点都进行了信息聚合和更新,对于节点计算加权平均和,公式如下所示:
其中,
是使用softmax函数进行normalize之后的基因关联分数,公式如下所示:
在得到中心节点的邻居的表达之后,聚合并更新的公式如下所示:
其中W和b是线性transform层的权重和偏置,
是激活函数ReLU。在得到两个基因的表达之后,他们之间的反应概率通过下列公式计算:
2.3总loss和优化
作者给模型设计了两种loss,基本loss和L2 loss,基本loss使用cross-entropy计算,公式如下:
其中,
是预测值,
是真实值。作者还加入了L2正则loss,公式如下:
其中,
代表对实体embedding,关联embedding以及聚合权重的L2正则。最后的loss联合了上述两种loss,公式如下:
A是一个可训练的权重矩阵,
是一个平衡超参数,这里被设置为0.0039.学习率被设置为0.002,使用Adam优化算法进行优化。
4.实验结果
1.与baseline方法的比较
作者将KG4SL与多种baseline方法比较,分别是SL2MF,GRSMF,HOPE,DeepWalk,Node2Vec,LINE,GCN,GraphSAGE,GAT,DDGCN。对比结果如下
在SynLethKG上,KG4SL优于表中所示的所有baseline方法,与第二优模型GRSMF相比,KG4SL在AUC、AUPR和F1上的性能分别提高了3.11%、2.16%和6.4%。总的来说,基于GNN的模型比基于MF和RW的浅嵌入模型性能更好。这可能是因为基于GNN的模型可以从SL之间的相似性中学习,并丰富了SL预测的基因嵌入。DDGCN是目前最先进的SL预测模型,在基于GNN的baseline方法中性能最好。基于MF的GRSMF方法仅次于KG4SL,表明结合GO基因相似信息和自表示矩阵分解对SL预测是非常有效的。KG4SL的表现甚至更高,这表明从包含GO信息的KG中学习基因表征和其他基因特征可以进一步提高SL预测。
2.模型分析
2.1参数敏感度分析
作者对KG4SL中的一些关键超参数进行了敏感性分析,包括邻居采样大小k和实体嵌入维数d,如图所示。
首先,作者改变邻居k的样本数,观察模型的性能。KG4SL在相邻采样尺寸k=64时的AUC、F1和AUPR最好。当k值越高的邻居采样越多时,采样的信息可能会变得冗余,因此当k为128时模型性能略有下降。接下来,作者还研究了嵌入维数d的影响。KG4SL模型在嵌入维数为256时已经有了很好的性能。太大的嵌入维度会给内存和计算带来负担。最终,作者设置KG4SL模型的邻居采样大小为64,嵌入维数为256。
2.2 收敛分析
设置上述参数后,作者观察了模型的收敛性。下图显示了损失的变化和三个指标随迭代次数的增加。
蓝点线、红点线和绿点线分别表示训练数据、验证数据和测试数据。橙色的线表示损失的变化。作者发现,损失在前10个epoch内迅速下降,在第20个epoch开始逐渐收敛。在L2-regularizer约束下,loss收敛到0.3111,训练集、验证集和测试集三个度量的结果变化趋势相似,说明所提出的方法可以缓解过拟合问题。
2.3 KG的影响
虽然自动将KG集成到节点特征构造中在模型中是至关重要的,但作者想知道KG对于SL预测任务是否真的重要。为了研究这个问题,作者分别测试使用SynLethKG和不使用SynLethKG时的SL预测性能。效果如下表:
上表展示了几种机器学习模型在SynLethKG、SL图以及两者组合上的预测性能。该方法旨在自动学习SynLethKG中实体和关系的低维嵌入。以TransE为例,TransE是一种流行的无监督KG嵌入学习方法,它完全基于SynLethKG进行训练。作者还比较了单个SL图的贡献,这种方法被称为基于SL的方法。然后,将基于KG和SL的方法结合起来,命名为“TransE GCN”,进行进一步测试。从表的前三行中,我们可以观察到来自KG的额外信息指导模型获得比单独使用KG或SL图更好的性能。TransE只接受过KG训练,AUC得分为0.5870,AUPR为0.6100,是三种模型中最低的。GCN直接在SL图上操作,利用了Xavier的均匀分布作为初始节点特征,得到AUC评分0.8329,AUPR评分0.8727。同时检查KG和SL图的模型优于上述任何一个。所有的证据都表明,KG信息可以帮助SL预测。
此外,为了定性地解释上述模型的学习能力,作者提取了这些模型的链接特征。首先,确定节点特征的维数为256。接下来,测试数据中SL pair的每个节点的特征被连接在一起,表示它们之间嵌入的链接。然后,利用t-SNE可视化技术将高维特征向量映射到二维空间。如下图所示。
橙色的点表示一对测试基因之间存在SL关系,而蓝点则相反。显然,一方面TransE的区分能力最弱,因为没有考虑SL标签信息。另一方面,虽然“TransE GCN”和KG4SL都与KG集成,但KG4SL能够更好地利用这一信息,更彻底地分离两种类型的链接。
5.总结
本文提出了一种新的基于图神经网络(GNN)的KG4SL模型,将知识图(KG)消息传递纳入到图神经网络预测中。该模型利用包括基因、化合物、疾病、生物过程在内的11种实体和24种可能与SL相关的关系构建,通过对KG进行信息传递,有助于利用独立性问题,避免人工特征工程。作者的模型在AUC,AUPR和F1指标上优于所有最先进baseline方法。并且证明了将KG纳入GNN中对SL预测的显著影响。
参考文献
文章地址
https://doi.org/10.1093/bioinformatics/btab271
代码地址
https://github.com/JieZheng-ShanghaiTech/KG4SL.