J Cheminform | SimVec:一种新型的基于知识图谱的药物副作用预测模型

2022-11-16 16:48:35 浏览数 (1)

2022年7月26日,来自JetBrains Research的Nina Lukashina等人[1]在Journal of Cheminfomatics上发表文章。文章提出了一种新方法SimVec,该方法通过使用结构感知的节点初始化和加权药物相似性边,来增强药物互相作用的知识图谱结构,并设计了一个新的三步学习过程,它迭代地更新了与副作用边缘,相似性边缘和有限知识的药物有关的节点嵌入。所提出的方法显著优于现有的模型。

背景

在同时使用多种药物时,必须尽可能降低由于药物-药物相互作用导致的副作用风险。然而,几乎不可能测试所有可能的药物对是否存在副作用,因此,对多药副作用进行可靠的自动预测,是医疗行业的一项重要任务。Zitnik等人[2]利用知识图谱(knowledge graph,KG)构建药物间的复杂网络,将多药副作用预测问题表述为异构图中的链接预测问题。该模型通过求解多模式网络中的多关系链路预测任务来预测特定药物对之间的确切副作用。图中的节点表示药物和蛋白质,而边表示药物-药物和蛋白质-蛋白质相互作用。

然而,如果某一特定药物仅存在少量已知的与其他药物的关联,该模型将难以预测新的联系。这对于预测系统的实际使用可能是一个严峻问题,因为新药最需要分析,而它们没有许多已知的关联。因此,根据药物的化学结构,添加药物的学习表示,学习知识图谱中已知连接数较少的药物组合的多药副作用,非常关键。

本文的主要贡献是,在有限的已知关联的情况下,对药物的多药副作用进行了预测。通过在节点初始化时考虑化学结构和对应于药物节点之间化学相似性的新的边,知识图谱的表示能力得到增强。作者设计了一个新的三步学习过程,它迭代地更新了与副作用边缘,相似性边缘和有限知识的药物有关的节点嵌入。

方法

如图1,SimVec通过结构感知节点初始化和加权药物相似性边缘来增强知识图谱。图中有两种类型的节点(实体):药物和蛋白质。SimVec用化学结构学习到表示,来初始化知识图谱中的药物节点,其目的是为模型提供一些关于药物化学结构的先验知识,以改进对弱节点的推理。如果特定药物的已知多药副作用数量有限,该模型可以根据药物的化学性质做出假设。SimVec使用了三种类型的100维化学嵌入,包括Morgan指纹、RDKit分子指纹、以及来自预训练双曲变分自编码器的表示向量。节点h和t之间的边权重计算方式为

其中

window_size(h,t)=l_bound InvDeg(h)InvDeg(t)(u_bound−l_bound),degx为节点x的度,窗口区间为[l_bound, u_bound]。

图1. SimVec模型图

SimVec的学习过程分为以下三步:

1.对于副作用边,考虑一个由节点s经过边p到达节点o的三元组(s,p,o),损失函数为

2.对于加权的相似度边,定义新的损失函数

3.对于每种与其他药物已知关联较少的药物(弱节点),寻找与该药物较为接近,而常见副作用数量较多的一系列药物(强节点),通过加权平均策略学习表示向量。

知识图谱可视为只有正样本,即关于多药相互作用的已知关联。为了获得有效的负样本,通常使用负采样策略生成负样本。给出一个现有边的正样本,通过用均匀采样的随机顶点替换两个链接顶点中的一个,可以生成负样本。基于缓存的NSCaching模型[3]通过将分数较大的罕见负三元组样本存储在缓存中来跟踪它们。从缓存中负样本与正样本之比为1:1的比率采样。考虑到知识图谱中,增加负样本数量可以提高模型精度[4],SimVec将负样本与正样本之比提升到6:1。

此外,作者提出了一种新方法,Strong NSCaching,如图2所示。对于弱节点,使用其强邻居节点的一些样本是有效的。因为强节点的缓存更新更频繁,所以强节点缓存中的示例更好。

从最近强邻居的缓存中以概率搜索样本

并以1-p的概率从节点的缓存中采样。参数α旨在平衡概率p衰减率。α越高,从最近强邻居的缓存中采样的概率越低。因此,当α值较大时,概率p变得接近0。

图2. NSCaching与Strong NSCaching

结果

表1展示了采用均匀负抽样的下列模型的评估结果:

RESCAL_original是[5]中的一个模型。RESCAL_chem和RESCAL_SE是RESCAL模型,表示药物节点分别用化学表示和单副作用初始化。

Decagon_original_SE是Decagon模型[2]。值得注意的是,Decagon模型使用节点初始化副作用。Decagon_chem是Decagon模型,其中使用化学表示初始化节点。

TriVec_original是[11]中的模型。TriVec_SE是TriVec模型,其中药物节点以副作用初始化。

SimVec_Chem是用化学表示初始化的模型。

SimVec_weighted是一种具有加权和新的相似边的模型。

SimVec_SE是基于副作用的模型。

SimVec_chem_weighted融合了化学表示初始化和加权边。

SimVec_SE_weighted融合了副作用初始化和加权边。

SimVec_Full融合了所有改进,即化学表示初始化、加权和更新的学习过程。

表1. 不同方法间对比

图3. 不同的边加权和节点初始化策略对比

由于作者提出了不同的结构感知节点初始化方法和边缘加权方法,作者进行了实验以选择最佳选项。图3显示了相应模型验证数据集上的ROC AUC曲线。作者评估了三种不同的表示下的加权策略:基于Morgan指纹、基于RDKit分子描述符、基于双曲空间嵌入。在所有边加权(图a)和节点初始化(图b)策略中,每个策略中只有一个显示出比基础模型更好的性能;即a中基于分子描述符的窗口加权和b中使用Morgan指纹的节点初始化效果最好。

总结

本文研究了基于知识图谱的药物副作用预测模型,通过有限的已知多药关联显著改进了对药物副作用的预测。通过在节点初始化时考虑化学结构和对应于药物节点之间化学相似性的新的边,以及应用新颖的负采样策略,知识图谱的表示能力得到增强。

参考文献

[1] Lukashina et al., SimVec: predicting polypharmacy side effects for new drugs, J Cheminform, 2022

[2] Zitnik et al., Modeling polypharmacy side effects with graph convolutional networks, Bioinformatics, 2018

[3] Zhang et al., Nscaching: simple and efficient negative sampling for knowledge graph embedding, in ICDE, 2019

[4] Trouillon et al., Complex embeddings for simple link prediction, in ICML, 2016

[5] Nickel et al., A three-way model for collective learning on multi-relational data, in ICML, 2011

[6] Novacek et al., Predicting polypharmacy side-effects using knowledge graph embeddings, AMIA Summit Transl Sci Proc, 2020

--------- End ---------

0 人点赞