DPDDI:用于药物-药物相互作用的深度预测器

2021-02-02 10:30:21 浏览数 (1)

今天给大家介绍BMC Bioinformatics期刊的一篇文章,”DPDDI: a deep predictor for drug-drug interactions”。作者开发了DPDDI模型,在不考虑药物化学和生物特性的情况下,仅使用药物-药物(DDI)网络作为输入,便可预测潜在的DDI,还可用于检测药物副作用、指导联合用药等。

作者提出了一种新的模型(DPDDI),利用图卷积网络(GCN)和深度神经网络(DNN)模型,从DDI网络中提取药物的网络结构特征,从而预测DDI。GCN通过获取DDI网络中药物的拓扑关系来学习药物的低维特征表示。DNN预测器将任意两种药物的潜在特征向量串联起来作为对应药物对的特征向量,通过训练模型,来预测潜在的药物-药物相互作用。

1、研究背景

通过服用多种药物来治疗复杂疾病变得越来越流行。然而,药物-药物相互作用(DDI)可能会带来不可预料的副作用甚至未知的中毒风险。在湿式实验室中进行DDI检测既昂贵又费时。因此,开发预测DDI的计算方法是非常必要的。现有的计算方法大多是通过从药物的众多相关特性中提取药物的化学和生物特征来预测DDI,但一些药物特性的获取成本较高,在很多情况下无法获得。

2、方法概述

2.1模型框架

图1. 模型框架图

(1)模型输入:DDI网络。DDI网络中的结点表示药物,边表示两个药物间的相互作用。DDI网络用一个对称二进制矩阵来表示,当某个点的值为1时,表示两药物间有已知的相互作用,否则两药物间的相互作用是未知的。

(2)特征提取:GCN模型。 使用一个两层的GCN自动编码器来获取药物节点的嵌入表示,每一种药物都被表示为一个特征向量,以此从DDI网络中获得药物的低维特征。

(3)特征整合:拼接操作。将提取到的两个药物的特征向量通过拼接操作整合成一个可以表示药物对的特征向量。

(4)模型输出:预测的DDI网络。将整合的表示药物对的特征向量输入到DNN模型中进行预测,输出预测的DDI网络。

2.2数据集

(1)数据集DB1 从DrugBank中提取已获批的小分子药物及其相互作用关系,构建数据集DB1。DB1包含1562种药物和180576种已注释的药物-药物相互作用。

(2)数据集DB2 采用Zhang等人构建的更小的数据集作为数据集DB2。通过与其他先进的方法进行比较,来评估模型的表现。DB2包含548种药物和48,584种已注释的药物-药物相互作用。

(3)数据集DB3 构建了一个新的和更大的数据集作为DB3。用于评估模型的健壮性,包括1934种药物和230,887个已注释的药物-药物相互作用。

2.3 特征提取

GCN以对称邻接矩阵A作为输入,输出DDI网络中每个药物的特征向量:

设为特征矩阵,其中每一行表示网络中每个节点的特征向量。因此,第一个隐藏层的输出为:

其中,

,

,

类似的,第二个隐藏层的输出为:

2.4 特征整合

给定两种药物di和dj,通过GCN得到其特征向量Zi和Zj,考虑使用内积、求和和拼接三种特征操作符将两种药物的特征向量整合为一个特征向量来表示药物-药物对。具体来说,分别采用两种药物的特征向量Zi和Zj的内积

、求和F(di,dj)=Zi Zj、拼接

来表示药物对(di,dj)。

2.5 预测器及模型训练

预测器:预测器由五层DNN实现,每层DNN的神经元数量分别为256、128、64、32和2,以此将DDI预测转化为二分类。前四次的激活函数采用ReLU,最后一层使用SoftMax作为激活函数,输出药物对是潜在DDI的概率。

DPDDI的训练分为两步:

(1)训练一个GCN来获得药物的低维特征向量。使用DDI网络训练GCN模型中的参数(学习速率、epoch、dropout、input-dim、hidden-dim、output-dim)。

(2)学习DNN的参数(学习速率、dropout、epoch、批大小、input-dim、hidden-dim、output-dim),用于最终的DDI预测,并对所有DPDDI框架的参数进行微调。

3、实验结果与讨论

3.1 与4种目前先进方法的比较

DPDDI模型除AUC值略低于CE方法外都优于其他现有模型。CE使用了9个药物相关的数据源,而DPDDI仅使用了已知的药物-药物相互作用数据,如果整合更多的药物相关的数据源(如药物亚结构、药物靶点、药物酶、药物转运体、药物途径、药物适应症、药物副作用和药物副作用等)去构建药物-药物相似度网络。使用DPDDI来预测DDI, 会取得更好的表现。

表1. 在DB2数据集上本模型同其他方法的比较

3.2 比较不同的特征整合操作符

使用三种特征操作符(内积、求和和拼接)将两种药物的特征向量整合成一个特征向量来表示药物-药物对。在5折交叉验证测试中评估它们在DB1数据集上对模型的影响。可以看出,拼接操作得到的效果是最好的,因此本文最终选择了拼接操作来整合两种药物的特征向量。

表2. 在DB1数据集上使用3种不同特征聚合算子模型的表现

3.3 DeepDDI与其他DDI预测工具的比较

为了验证模型的健壮性,使用三个不同大小的数据集(即DB1、DB2和DB3)来评估模型在5折交叉验证测试中的表现。如表所示,虽然数据集的大小对模型的表现有一定的影响(即数据集越大,表现越好),但该模型在小数据集上也得到了合理的预测结果。这表明,该模型对于预测DDI数据集的大小是相对稳健的。

表3. DPDDI在不同大小数据集上的表现

3.4 比较不同负样本量对模型的影响

通过对不同的未标记药物对进行采样,生成负样本集,并与正样本集相结合,形成DDI训练、验证和测试数据集。通过实验可以得出结论:在正负样本比例为1:1的时候模型效果是最好的。

图2. 正负样本比例对模型表现的影响

4、总结

本文设计了一个GCN模型来学习药物的低维特征表示,获取DDI网络结构信息,随后使用拼接操作符将两个药物的特征向量整合为一个药物对的特征向量,最终使用DNN模型作为预测器,区分两种药物是否存在相互作用。同时文章存在的可以改进的地方,例如:DPDDI可以有效预测DDI网络中存在的两种药物之间的相互作用。如果是DDI网络中不包含的药物,预测将失败。可以通过引入药物的化学或生物性质来构建药物-药物相似度网络,然后来预测新的DDI。

0 人点赞