传统药物研发过程漫长,投入大,风险高。新药研发的平均时间长达15年,平均耗费超过8亿美元。作为药物研发的源头,药物靶标的发现和识别对药物的研发成功率具有决定性的作用。随着人工智能和机器学习逐渐应用于医药健康和药物研究,以及蛋白质组学数据、化学基因组学数据的日益增长,可为药物新靶标发现提供信息技术支撑,并为靶标识别预测提供新的思路。
本文介绍由湖南大学曾湘祥教授课题组联合湘潭大学林轩博士和美国伊利诺伊大学芝加哥分校Philip S Yu教授发表在IEEE Transactions on Knowledge and Data Engineering期刊上的研究成果。该研究团队提出了一种用于分子相互作用预测的知识图谱增强多任务学习模型,该模型通过设计一个有效的共享单元模块以协同方式从知识图谱和分子图中分别提取丰富的语义关联信息和拓扑结构特征。在多个真实数据集上的实验结果表明,该模型在两个具有代表性的分子相互作用预测任务上(即药物-靶标相互作用预测和化合物-蛋白质相互作用预测)均优于最先进的基准方法。
分子相互作用预测在包括药物发现和材料科学在内的各种应用中至关重要。当相互作用由分子网络中的未映射关系表示(即分子相互作用)时,该问题变得相当具有挑战性,因为它容易受到以下问题的影响:(i)标记数据不足,具有许多假阳性样本;(ii)忽略知识图谱中具有丰富信息的大量生物实体。现有的大多数方法不能同时高效地利用知识图谱和分子图的信息。
整体框架
这项工作提出了基于知识图谱的多任务学习框架用于预测分子相互作用。它可以同时提高多个预测任务的性能,包括药物-靶标间的相互作用和化合物-蛋白质间的相互作用。KG-MTL的框架图如图1所示,它主要由三个模块组成,即DTI、CPI和Shared Unit。
- 在DTI模块中,采用关系图卷积神经网络(RGCN)从知识图谱中学习药物和靶标实体的语义关系和拓扑结构信息,这有助于预测未知的药物-靶标间的相互作用。
- 在CPI模块中,同时采用卷积神经网络(CNN)和图卷积神经网络(GCN)分别从蛋白质序列和化合物分子图中提取更多的化学背景和分子图的拓扑结构信息。
- Shared Unit模块将化合物的分子结构信息与前两个模块中相应药物实体的语义关系进行融合,获得更好的特征向量表示以进一步提升模型性能。
图1 KG-MTL框架图
实验
DTI实验
如表1所示,可看出KG-MTL优于所有其他基线方法。具体来说,KG-MTL在DrugCentral数据集上的ACC、AUC和AUPR指标至少分别提高8.2%、3.9%和5%,在DrugBank数据集上分别提高4.9%、0.8%和1.8%。这些现象可表明:(i)与仅学习药物和蛋白质序列表示的方法(如DeepConvDTI)相比,该方法可通过CPI模块保留各种类药化合物更多的有价值信息;(ii)与直接学习节点嵌入的KG模型(即TriModel、TransE、DistMult和GCN-KG)相比,所提出的Shared Unit模块能够帮助该模型联合学习知识图谱(即DRKG)中药物实体的语义关系和其自身的分子拓扑结构,从而提高DTI任务的预测性能。
表1 在DTI预测任务上的对比实验结果
CPI实验
表2列出了CPI任务的比较结果。结果表明KG-MTL在human和C.elegans数据集上的性能均优于所有基线方法。更具体地说,KG-MTL在AUC指标上实现了至少2.6%、在AUPR指标上实现了至少1.1%的性能提升。同时,与human数据集中的GNN-CPI(第二好方法)相比,KG-MTL获得了94.9%的最佳AUC分数,绝对增益至少为3.3%。这种改进归因于DTI模块带来的丰富信息,该模块可从知识图谱中提取药物实体的丰富语义关系,而其他基于图的方法(例如GNN-CPI和NeoDTI)仅从化合物的分子结构或药物相关网络的拓扑结构中学习嵌入表示。同时,与直接采用知识图谱信息而忽略分子结构的KG模型(即TransE、DistMult和GCN-KG)相比,KG-MTL通过Shared Unit模块进一步融合知识图谱信息和分子图结构,从而获得更好的预测性能。
表2 在CPII预测任务上的对比实验结果
消融实验
为了研究Shared Unit模块中不同操作和学习策略对提出模型性能的影响,该论文对KG-MTL的几种变体进行了消融实验:KG-MTL-S是KG-MTL的变体,它去除了Shared Unit和学习策略。因此,可以采用KG-MTL-Sdti/KG-MTL-Scpi表示单个DTI/CPI任务,KG-MTL-L去除了Shared Unit的交叉操作,仅保留了线性操作。KG-MTL-C删除了Shared Unit的线性操作,只保留了交叉操作。两种任务的消融实验结果如表1和表2所示。结果表明,包括线性和交叉操作在内的Shared Unit及学习策略对这两个任务的预测性能都有影响。在所有变体中,KG-MTL-S与KG-MTL相比,性能差距显著,这表明Shared Unit模块在帮助模型同时从分子图和知识图谱中提取的药物特征方面贡献最大,从而提高了预测性能。此外,所提出的KG-MTL方法在所有数据集中均优于KG-MTL-L和KG-MTL-C,证明了完整设置的Shared Unit模块有利于提高预测性能。
总结
靶标间的分子相互作用预测(如DTI和CPI预测)在药理学和临床应用等许多方面中发挥着关键作用。本工作重点关注分子间的相互作用预测,这需要模型捕捉药物的特征及与靶标相关的相互作用信息。然而,已有的大多数工作对于药物特征提取不足,忽略了知识图谱中的语义信息。为了解决这个局限性,该工作提出了一个名为KG-MTL的新框架,可从多任务学习的角度开发了一个新的Shared Unit模块,分别从化合物的分子图和对应的知识图谱中的药物实体中捕获信息。在真实数据集上的实验结果表明,KG-MTL可以提高药物-靶标相互作用预测和化合物-蛋白质相互作用预测任务的性能。
参考资料
Ma, T., Lin, X., Song, B., Philip, S.Y. and Zeng, X., 2022. KG-MTL: Knowledge Graph Enhanced Multi-Task Learning for Molecular Interaction. IEEE Transactions on Knowledge and Data Engineering.
代码
https://github.com/xzenglab/KG-MTL