作者 | 王天朔 编辑 | 李仲深
今天给大家介绍华中农业大学章文教授团队在Briefings in Bioinformatics上发表的文章“Predictingdrug–disease associationsthrough layer attention graph convolutional network”。确定药物与疾病的关联是药物开发过程中不可或缺的一部分,而发展高效、高精度的计算方法对预测药物与疾病的相关性具有重要意义。本文提出了一种名为LAGCN的新方法,该方法使用引入了注意力机制的图卷积网络用以预测药物-疾病关联。
一、研究背景
药物开发是一个极其昂贵和漫长的过程,一种药物平均要花费26亿美元,历经12年的时间才能研发成功。识别药物与疾病的关联可以有效地挑选出候选关联并进行进一步验证,因此可以加速药物开发。深度学习方法已被证明在许多任务中更有效,包括但不限于人脸识别、问答系统、计算生物学,并且在药物-疾病关联预测中也有成功的应用。最近,图卷积网络展示了它在生物医学领域的强大能力,如microRNA(miRNA)-疾病关联预测和miRNA-耐药关联预测。本文中作者提出了一种端到端的深度学习方法,称为LAGCN,用于预测药物与疾病的关联。LAGCN首先将已知的药物-疾病关联、药物-药物相似性和疾病-疾病相似性整合到一个异构网络中,并将图卷积运算应用到网络中,学习药物和疾病的嵌入。其次,LAGCN使用注意力机制将来自多个图卷积层的嵌入进行组合。最后,基于整合的嵌入对未知的药物与疾病的相关性进行评分。
二、模型与方法
2.1 数据集
作者从ComparativeToxicogenomics Database(CTD)中获取到269种药物、598种疾病,以及18416个前述药物与疾病的关联。药物的相关信息(Target、Enzyme等)从DrugBank database中获取,通过医学主题词(MeSH)中的标准术语对各种疾病进行规范化。
2.2 模型
图1. 引入注意力机制的图卷积网络工作流程
(1)药物与药物间相似度
一种药物可以用一个二进制特征向量表示,向量中每个元素表示特征描述符的存在与否。由于我们有不同类型的特征,我们可以将药物转化为多种类型的特征向量,并根据这些特征使用不同的相似性度量来计算不同的药物-药物相似性。Jaccard index和Cosine similarity是最常用的两种可以用来获得药物-药物相似度的度量。Jaccard index的公式为
Cosine similarity公式为
作者将这两种相似度度量应用在药物的不同特征中,并在后面对这些相似度进行了对比。
(2)疾病与疾病间相似度
作者利用MeSH描述符构造了有向无环图(DAG),疾病-疾病间相似度就使用图计算出来。对于某一种疾病d,用以下图表示
N(d)是包含d和d的祖先节点的集合,E(d)代表父节点指向子节点边的集合。
在DAG(d)中某个节点n对于疾病d的贡献由下面公式计算
Δ取值范围为(0,1),本文中取值为0.5。
根据“拥有更多相同祖先的节点间更容易有更高的相似度”这一假设,通过下面公式计算疾病di和dj
(3)异构图
用矩阵A∈{0, 1}N×M代表药物-疾病关联。M、N分别代表疾病和药物数量。当药物ri与疾病dj有关联时Aij=1,反之Aij=0。通过下面的邻接矩阵构建了异构图
其中:
(4)图卷积神经网络
图卷积网络(Graph Convolutional Network, GCN)是一种多层连接的神经网络结构,用于从图结构数据中学习节点的低维表示。每层GCN通过图的直接链接,聚集邻居的信息,重构嵌入作为下一层的输入。它的层与层之间的传播方式可以用下面公式表示
为了建立一个基于GCN的用于学习药物和疾病的低维表示的编码器,我们考虑通过在我们构建的异构图AH上部署GCN来结合节点相似性和药物疾病关联信息。引入惩罚因子μ用以控制相似度在GCN传播中的贡献。
图嵌入初始化如下:
那么GCN编码器的第一层得到的图嵌入为:
H(1)∈R(N M)×k,k为嵌入的维数,其他各层类似。
(5)注意力机制
考虑到不同层次的不同嵌入的贡献是不一致的,我们引入注意力机制,将这些嵌入结合起来,最终得到药物和疾病的嵌入:
其中HR∈ RN×k为最终的药物嵌入,HD ∈ R M×k为最终的疾病嵌入。al由神经网络自动学习并初始化为1/(l 1),l=1,2,…,L。
解码器A‘如下:
A‘即为重构图的邻接矩阵,矩阵A‘中第i行第j列元素就代表药物ri和疾病dj间关联的预测得分。
(6)训练方法
采用交叉熵作为损失函数
W(l)和 W‘使用Xaiver initialization进行初始化,随后使用Adam优化算法最小化损失函数。Adam优化算法可以通过一次次迭代更新W(l) 和 W‘。
三、实验结果
考虑到药物有五种不同特征,并且有两种不同的相似的度量,作者在基于不同的药物-药物相似度的异构图上训练LAGCN,并在每个模型上采用五折交叉验证,结果如下表所示
表1. 采用不同药物-药物相似性和不采用药物-药物相似性的LAGCN模型的表现
可以看出,Jaccard index比Cosine Similarity结果稍好。而基于不同特征计算得来的相似度有着几乎一样的表现,作者认为这代表LAGCN具有良好的鲁棒性。
值得注意,作者也使用了不考虑药物-药物相似性和疾病-疾病相似性,而只考虑药物-疾病关联的LAGCN的简化版本,并把该简化版本命名为LAGCN-NH。LAGCN-NH的表现较差,这代表着相似度信息对最终的预测结果起着重要作用。
考虑到注意力机制对最终结果的影响,作者用LAGCN-L1,LAGCN-L2和 LAGCN-L3表示只使用第1层、第2层和第3层所获嵌入时的LAGCN模型。
表2. 基于不同嵌入的LAGCN模型的表现
LAGCN-L1和LAGCN-L2比LAGCN-L3表现更好,这代表第一层和第二层的嵌入比第三层的嵌入提供了更多有用的信息。
注意力权值代表着不同卷积层对于最终得到的嵌入的贡献比率,GCN在第一层施以最大的权值,第二层其次,而在第三层施以最小的权值,得到的LAGCN模型具有最好的表现。这也从侧面解释了LAGCN-L1、LAGCN-L2、LAGCN-L3的不同表现。
图2. LAGCN中三个卷积层上的注意力权值
作者还采用了其他方式来组合不同层的嵌入。LAGCN-AVE为不同的嵌入分配统一的权重;LAGCN-CON直接连接不同的嵌入。这两种方法均不如采用了注意力机制的LAGCN方法,体现了注意力机制的重要作用。
已知的药物-疾病关联对预测的结果产生着重大的影响。为了测试LAGCN和已有方法SCMFDD、deepDR、BNNR和NIMCGCN的鲁棒性,作者随机删除数据集中的一部分已知关联,使数据集中分别保留原来80%,85%,90%,95%,100%的关联并实行五折交叉验证。如图3所示,已知药物-疾病关联的数量对预测结果发挥着重要作用,通过更多的已知信息可以得到更好的效果。还可以发现的是,在不同的数据丰富度下,LAGCN有最好的表现和鲁棒性。
图3. 基于不同比例已知关联的方法的性能
四、总结
在本文中,作者建立了一个用于识别潜在药物-疾病关联的LAGCN。与现有的方法不同,LAGCN捕捉由药物-疾病关联、药物-药物相似性和疾病-疾病相似性构建的异构网络的拓扑信息。LAGCN通过将不同卷积层的嵌入与注意力机制相结合,在预测药物与疾病的关联方面取得了良好的效果。
代码
https://github.com/storyandwine/LAGCN
参考文献
Zhouxin Yu, FengHuang, Xiaohan Zhao, Wenjie Xiao, Wen Zhang*. Predicting Drug-DiseaseAssociations through Layer Attention Graph Convolutional Network. Briefings inBioinformatics, 1 September 2020.
https://doi.org/10.1093/bib/bbaa243