Bioinformatics | 基于多模态深度学习预测DDI的框架

2021-02-04 14:50:56 浏览数 (1)

作者 | 王天朔 编辑 | 李仲深

今天给大家介绍华中农业大学章文、刘世超等人在Bioinformatics上发表的文章“A multimodal deep learning framework for predicting drug-drug interaction events”。作者从DrugBank数据库中得到了4种feature和65类DDI事件,并提出了一个叫做DDIMDL的多模态深度学习框架用以组合这四种feature并通过深度学习方法预测DDI。实验结果表明,相较于其他方法,DDIMDL框架无论是在效率还是在准确度方面都有很好的表现。

一、研究背景

近年来,人们同时服用两种或两种以上药物的情况越来越普遍,尤其是患有多种疾病的老年人。一项研究显示,全美国67%的老年人在2010到2011年间曾服用5种及以上药物。然而,有研究表明,当多种药物合用时,药物可能会与其他药物发生相互作用(DDI),而导致意想不到的药物不良事件。因此,知道的DDI越多,我们就越能采取有效措施防止此类事件的发生。然而,用药物试验方法测试DDI是一种既耗时又耗力的方法。所幸近年来,研究人员从文献、报告等中收集药物数据,并构建数据库,促进计算预测方法的发展。因此,可以采用机器学习方法来预测DDI,以减少时间和成本。

作者重点研究了DrugBank中已知DDI的描述,并通过对这些描述进行语义分析,构建了一个DDI事件数据集。并且提出了一个多模式的深度学习框架DDIMDL,它利用深度学习和药物的多种特征来预测DDI事件。实验结果表明,DDIMDL具有较高的效率和较高的精度,优于其他的方法。

二、模型与方法

2.1 数据集

DrugBank是一个药物数据库,其提供有关12151种药物的综合信息,包括3844种FDA批准的药物和5867种实验药物。作者在此数据库收集存在已知DDI和四种特征:chemical substructures、targets、 pathways、enzymes的药物。

DrugBank中的DDI通常用结构固定的句子描述。例如"the serum concentration of Abemaciclib can be decreased when it is combined with Apalutamide",这个句子描述了Abemaciclib和Apalutamide中的DDI事件。对于类似的句子,作者用四元组(drug A,drug B, mechanism, action)描述。

图1. 将DDI的描述转变为四元组

最终得到的数据包含572种药物和74528对DDI。这些DDI可分为65组事件。按这65类事件的出现频率的降序从#1到#65对其编号。

图2. Top 10 frequent eventsnumbered from #1 to #10.

图3. Distribution of DDI events

2.2 模型

图4. DDIMDL框架流程

1)特征提取模块

我们有四种特征,分别是chemical substructures, targets, enzymes, pathways。每个特征对应于一组描述符,因此一种药物可用一个二元特征向量表示,该向量某个位置元素为1时代表相应描述符存在,为0代表相应描述符不存在。用chemical substructure做例子,Pubchem定义了881类化学子结构,那么一种药物就可以描述为一个881维向量,向量上某元素值为1或0代表该药物是否存在该子结构。同样的,基于存在的1162种药靶,将一种药物描述为一个1162维的向量。用这种方法,我们可以把一个药物用四个类似的向量表示。

这些向量维数很高、且大部分值都为0,因此我们不将这样的向量作为神经网络的输入。利用Jaccard相似度计算得到药物间相似度矩阵。该矩阵的形状为572×572。

分别将基于chemical substructures, targets, enzymes, pathways 计算得来的相似度矩阵命名为SCS,ST,SE,SP。每种药物可以用相似度矩阵中相应的572维行向量表示。Vi代表药物i的基于某种特征所得到相似度矩阵所对应的行向量。将药物对(i, j)的向量(Vi,Vj)作为神经网络的输入。

2)DDIMDL的构造与模型优化

由于我们有多个特征,我们利用深度神经网络(DNN)在每个特征的基础上构造子模型。其前向传播为

采用dropout层避免过拟合提高泛化性。各个子模型的结果通过取平均值得到最终预测。采用交叉熵作为损失函数,采用提前停止策略,batchsize为256,采用Adam优化。

三、实验和结果

3.1 评价指标

DDI预测中人们常常关注三个问题:一是在已知药物间预测新的DDI,二是预测已知药物和新药物间的DDI,三是预测新药物间的DDI。作者阐明了如何在这三个任务中评估模型表现。对于任务一,将所有DDI分为五份,采用五折交叉验证,在训练集上训练模型,在测试集上进行预测。对于任务二,将所有药物随机分为五份,采用五折交叉验证,模型在训练集上进行训练,测试时同时使用训练集和测试机的药物来预测。对于任务三,将所有药物分为五份,采用五折交叉验证,测试时只使用测试集上的药物。

我们的任务是多类别分类工作。评价采用ACC、AUPR、AUC、Precision和F1分数作为评价指标。

3.2 参数设置

首先考虑子模型中神经网络层数对结果的影响。作者规定隐含层中某一层神经元数量为其上一层的一半,并规定最后一层隐含层神经元数量为256。作者在不同层数的神经网络上做了对比,结果如下

表1. 不同层数下DDIMDL的表现

作者采用了三层神经网络,因为其有最好的表现。

考虑dropout概率,作者对dropout概率在0,0.1,0.2,0.3,0.4,0.5时进行对比,发现当其为0.3时有最高的ACC和AUPR。因此,采用的神经网络有三层,其神经元数量为512,256,65,并且其dropout概率为0.3。

3.3 特征评估

这一部分讨论不同特征组合对于结果的影响。实验结果如下

表2. 不同特征组合下DDIMDL的性能分析

图5. 具有不同特征组合的DDIMDL模型的P-R曲线

在所有的特征中,chemical substructure提供了最多的有效信息,其准确率可达到0.8623。相比于使用单个特征,不同特征的组合可提供更好的效果。值得注意的是,把四种特征都组合起来获得的结果并不是最好的,chemical structure,targets,enzymes的组合能得到最好的效果。因此,作者只使用这三种特征构建最终的框架。

3.4 方法比较

作者将DDIMDL与一种最先进的预测方法DeepDDI进行了比较,并且还考虑了几种常用的分类方法,即随机森林(RF)、k-最近邻(KNN)和logistic回归(LR),并像DDIMDL那样建立子模型,并将它们组合起来进行预测。此外,作者实现了一个与DDIMDL子模型结构相同的深层神经网络(DNN),但DNN直接将所有特征串联起来作为输入。实验结果显示,DDIMDL有着最好的效果。

图6. 不同方法的P-R曲线

图7. 不同方法在每个事件上的AUPR和AUC

图8. 框线图显示不同方法在每个事件上的AUPR和AUC

表3. 不同方法在三类任务上的表现

3.5 案例研究

作者使用来自DrugBank的所有DDI及其事件来训练预测模型,然后对其他药物对进行预测。我们关注5个频率最高的事件,数字从1到5,并检查与每个事件相关的前20个预测,并使用了由来自drugs.com的数据来验证这些预测。可确认5起药物相互作用事件,见下表

表4. 确认的DDI及其相关事件

四、总结

本研究从DrugBank获得DDI数据,将DDI相关事件分为65类,并编制了572种药物、74528种相互作用和65种DDI相关事件的数据集。提出了一种将多种药物特征与深度学习相结合的多模式深度学习框架,用于DDI事件预测。通过五折交叉验证,DDIMDL优于现有方法。此外,本研究亦进行个案研究,以找出本研究资料中未包含的DDI事件,并成功发现数个DDI事件,例如Dextroamphetamine与Fenfluramine相互作用所引起事件。综上所述,多模态学习为整合不同的特征和减少训练时间提供了一个强大的方法。多模态深度学习框架是DDI事件预测的一个很有前途的工具。


代码

https://github.com/YifanDengWHU/DDIMDL

参考文献

YifanDeng, Xinran Xu, Yang Qiu, Jingbo Xia, Wen Zhang*, Shichao Liu*. A multimodaldeep learning framework for predicting drug-drug interaction events.Bioinformatics, 14 May 2020, doi:10.1093/bioinformatics/btaa501

https://academic.oup.com/bioinformatics/article/36/15/4316/5837109

0 人点赞