BMC Bioinform|CNN-DDI:基于卷积神经网络预测药物相互作用

2022-11-16 17:00:21 浏览数 (2)

2022年3月7日,哈尔滨工业大学臧天仪教授团队在BMC Bioinformatics上发表文章。作者提出了CNN-DDI,一种使用卷积神经网络(CNN)架构来预测药物与药物相互作用(drug-drug interaction,DDI)的新型算法。首先,作者从药物类别、靶标、作用的通路和酶作为特征向量提取特征相互作用,并采用Jaccard相似性作为药物相似性的测量。然后,根据药物功能的表示,作者构建了一个新的卷积神经网络作为DDI的预测模型。

背景

药物-药物相互作用(DDI)是药物之间的反应。它们被分为三种类型:协同、拮抗和无反应。作为一项快速发展的技术,预测DDI相关事件在药物开发和疾病诊断领域得到越来越多的关注和应用。在这项工作中,作者不仅研究了两种药物是否相互作用,还研究了具体的相互作用类型。文章提出了一种基于学习的方法,使用卷积神经网络来学习特征表示和预测DDI。实验结果表明,药物类别作为一种新的特征类型应用于CNN-DDI方法是有效的,并且使用多个特征比单个特征信息量更大且更有效。因此,CNN-DDI在预测DDI的任务上比其他现有算法更具优势。

方法

CNN-DDI主要包括两部分:组合特征选择模块和基于CNN的预测模块。如图1所示,CNN-DDI组合了四个药物特征并获得低维表示,作为CNN模型输入。然后建立深度CNN模型来计算DDI类型的概率。该算法步骤如下:首先,使用四种类型的特征从特征选择模块中选择特征向量。对特征进行编码并生成二进制向量,向量的每个值表示组件是否存在。然后,计算Jaccard相似度来衡量药物之间的相关性。这样,得到特征向量作为预测模块的输入。接着,将特征向量输入预测模块。基于CNN的预测模块由卷积层、全连通层和softmax层组成。卷积层可以增强学习深度特征的能力。通过DDI的预测器,得到所有DDI相关事件类型的概率,并选择概率最高的事件。

图1. CNN-DDI模型图

首先,评估两种药物之间的相似性。特征选择包括两个步骤:(1)计算Jaccard相似度分数以评估药物之间的相关性。(2) 生成特征向量作为所述预测模块的输入。

DDIMDL数据集。将DDI的事件分类为65种类型,而不仅仅关注它们是否相互作用。数据集包括从DrugBank收集的572种药物和74528例DDI相关事件。它是一个手动收集的数据源,提供药物综合信息和描述DDI的统一语法。为了扩展DDIMDL的信息,本文作者从DrugBank中提取药物类别。572种药物在DDIMDL中有1622种类型。

药物的特征可以表示为二元向量,值为1或0。值1表示存在组分,值0表示不存在组分。例如,数据集有1622种类别。因此,类别可以表示为1622维位向量,该值表示药物是否属于该类别。类似地,可以从一种药物中提取四个二元特征向量,对应四个特征。然后通过相似性度量计算两种药物特征向量之间的相似性。

如图1所示,基于CNN的预测模块是预测DDI事件的重要部分。从选择模块中选择的特征是预测模块的输入向量。考虑到所选特征包含噪声和CNN的优势,决定在预测模块中使用CNN。

CNN具有以下优点:(1)卷积层利用连接的稀疏性和参数共享,参数较少。(2) 卷积层从全局特征和局部特征中提取信息。在DDI预测任务中,分类结果不仅与全局药物特征密切相关,而且与部分特征组合密切相关。因此可以提高特征学习的能力。因此,在本文中,将CNN作为监督模型,用于提取综合特征信息以预测DDI。

CNN-DDI使用了残差连接,增强了多层特征的相关性。在本文中,使用的激活函数是LeakyReLU。与其他激活函数相比,LeakyReLU可以增加特征稀疏性并降低梯度消失的可能性。考虑到预测DDI的事件是一项分类任务,使用softmax函数作为最后一个全连接层的激活函数。最终的损失函数设定为交叉熵损失。

结果

作者对比了CNN-DDI和四种先进算法的有效性。这四种算法分别是随机森林(RF)、梯度提升决策树(GBDT)、逻辑回归(LR)和K最近邻(KNN)。在实验中,将RF的决策树数设置为100,KNN的邻居数设置为4。表1显示了CNN-DDI算法在这6种评估指标中的性能优于其他四种方法。

表1. 不同方法间对比

表2. 不同特征的CNN-DDI效果对比

作者进一步测试了具有不同特征类型的CNN-DDI模型的性能。实验结果如表2所示,其中T, P, E, C分别表示使用靶标(target),通路(pathway),酶(enzyme),类别(category)特征。对于单特征模型,使用药物类别作为特征的CNN-DDI表现最佳。因此,药物类别作为一种新的特征类型应用于CNN-DDI方法是有效的。总的来说,使用多个特征信息丰富,有助于CNN-DDI比单一特征表现得更好。在所有组合中,四个特征的组合具有最高的得分。因此可以证明,每个特征都在一定程度上提高了CNN-DDI的性能。

总结

本文研究了基于卷积神经网络的药物副作用预测模型,通过使用深度卷积网络,和集成药物相关的多源特征,显著改进了对药物-药物互相作用关联的预测。

参考资料

[1] Zhang et al., CNN‑DDI: a learning‑based method for predicting drug–drug interactions using convolution neural networks, BMC Bioinform, 2022

--------- End ---------

0 人点赞