GPB|DeepCPI:基于深度学习的化合物和蛋白质相互作用预测框架

2021-02-04 14:44:59 浏览数 (1)

作者 | 龙文韬 编辑 | 龙文韬 校对 | 李仲深

这次给大家介绍清华大学交叉信息研究院的曾坚阳教授的论文“DeepCPI: A Deep Learning-based Framework for Large-scale in silico Drug Screening”。分析化合物与蛋白质的相互作用(Compound-Protein Interactions, CPIs)和新型药物靶标相互作用(Drug Target Interactions, DTIs)在硅药研发过程中起重要作用,从大规模未标记的化合物和蛋白质预测新的CPI有利于高效的药物研发。基于此问题,曾坚阳教授课题组将无监督的表征学习和特征嵌入与深度学习方法相结合,提出了一种自动学习化合物和蛋白质的隐式但具有表达力的低维特征评估大型数据库中测得CPI的计算框架DeepCPI。作者在方法中引入了(i)语义分析和Word2vec 方法来获得化合物和蛋白质低维特征表示(ii)多模态深度神经网络(DNN)分类器预测相互作用概率,使得其模型比现有模型更好地可以借助大规模无标签数据学习化合物与蛋白质的低维特征,实现预测未知的新型CPI或DTI。

一、研究背景

受多药药理学单一药物可能与多个目标相互作用的概念的启发,药物开发人员正在积极寻求新的方法,以更好地寻找CPI或确定现有药物的新用途(即药物重新定位),这样能显著减少药物开发所需的时间和成本。

已经提出了许多预测硅中潜在的CPI的计算方法来缩小可能相互作用的化合物-蛋白质对的搜索空间。虽然使用现有的预测方法可以获得成功的结果,但仍有几个问题没有得到解决。(1)首先,现有的预测新CPI的DL模型方法中没有很好利用大规模未标记数据编码的蛋白质或复合特征的隐式表征。(2)越来越多的已建立的DTI或化合物-蛋白质结合亲缘关系(例如,PubChem中超过200万个化合物和10000个蛋白质靶点的100万个生物分析)导致了严重可伸缩性问题。(3)现有方法通常无法准确预测给定新目标的潜在相互作用化合物(即训练数据中没有已知相互作用的化合物),这种类型的预测通常比针对具有已知相互作用化合物的目标的新型化合物的预测更为紧急。

基于以上观察,作者提出的新颖的通用且可扩展的计算框架DeepCPI,它将无监督的表征学习和特征嵌入与深度学习方法相结合,达到准确地大规模预测CPI的目的。利用大型数据库中已有的CPI和DTI(例如ChEMBL和BindingDB的CPI,以及DrugBank中已知的DTI)证明了DeepCPI的出色预测性能。

二、模型与方法

2.1 DeepCPI框架介绍

DeepCPI框架包括两个主要步骤(如图1):(1)化合物和蛋白质的表征学习。作者使用自然语言处理(Natural Language Processing, NLP)技术从相应的大规模未标记语料库中提取化合物和蛋白质的有用特征。化合物及其基本结构分别被视为“文档”和“单词”,而蛋白质序列和所有可能的三个不重叠的氨基酸残基分别被视为“句子”和“单词”,再使用潜在语义分析和Word2vec 特征嵌入技术获取低维表征。(2)通过多模态DNN预测CPI(或DTI)。将化合物和蛋白质的低维特征向量输入多模式DNN分类器中进行预测。

图1. DeepCPI工作流程图

2.2 DeepCPI化合物特征提取

为了学习化合物的良好嵌入(即低维特征表示),作者使用了潜在语义分析技术,化合物及其子结构可以分别视为文档和相应词语。首先,作者使用半径为1的Morgan指纹扫描了化合物中每个化合物的每个原子生成相应的子结构作为单词;每个化合物作为文档都由一个存储词语频率和词语频率反向文档频率信息(tf-idf, 一种广泛用于信息检索中的数字统计,用于描述文档中单词的重要性)的向量表示。随后,一个文档集合可以用矩阵M表示,其中每列存储文档中各个词的tf-idf得分(即其中 Mij表示j个化合物的第i个子结构的出现次数和文档中该子结构的重要程度)。最后,对文档集合使用奇异值分解(SVD)获得文档中特征的低维表示。

2.3 DeepCPI蛋白质特征提取

作者采用字嵌入技术Word2vec学习蛋白特征的低维表征,使用带有负采样方法的Skip-gram来训练单词嵌入模型并学习句子中单词之间的上下文关系。在将蛋白质序列转换为“句子”并将所有三个不重叠的氨基酸残基转换为“单词”后,采用带有负采样的Skip-gram来学习这些“单词”的低维嵌入。随后,每个单词扮演的两个角色(即中心单词和上下文单词)的低维特征求和取平均作为新的蛋白质序列的嵌入。

2.4 DeepCPI预测相互作用概率

作者首先按前面所述提取单个化合物和蛋白质的特征嵌入,然后通过多模态DNN将化合物和蛋白质特征分别输入两个具有1024和256个单元的局部隐藏层,再将其连接到分别具有512、128和32个单元的三个联合隐藏层,最终预测给定的化合物-蛋白质对相互作用概率,判断是否相互作用。

三、实验结果

3.1 DeepCPI实验方案

作者引用其他文章(https://academic.oup.com/nar/article/34/suppl_1/

D668/1132926)的ChEMBL和DrugBank数据库,以IC50或Ki<1uM作为正例、IC50或Ki>30uM作为负例。作者先使用RDKit生成化合物的Morgan指纹,再使用Gensim 执行了潜在语义分析和Word2vec(带有负采样的Skip-gram),最后使用Keras实施DNN。

作者考虑到留一交叉验证(LOOC V)可能导致方法学会利用对具有单一相互作用的蛋白质或化合物的偏见来提高LOOCV的性能,因而使用非唯一的例子作为训练数据,并测试了唯一对的预测性能。

3.2 DeepCPI性能比较

在各种实验中,作者使用三种基线方法和其他方法与DeepCPI进行比较。(i)与使用作者特征提取方案的随机森林和单层神经网络(SLNN)比较,用来证明对DNN模型的需求。(ii)与使用常规特征输入的DNN比较,用于证明作者的特征嵌入方法的需求。(iii)与其他方法比较。使用不同的训练数据集和测试数据集根据AUROC和AUPRC评估了DeepCPI的性能。

图2. AUROC和AUPRC评估

3.3 DeepCPI预测DTI效果

从DrugBank 获得的所有已知DTI数据都用于训练DeepCPI,然后检查在DrugBank中没有建立相互作用记录的药物-靶对的新预测结果。得分最高的大多数预测都可以得到相关文献中证据的支持。例如,在前100个预测的列表中,有71个新颖的DTI与先前研究中报道的一致,如下图展示了DTI网络的可视化。(紫色和黄色圆圈分别代表目标和药物,灰线表示从DrugBank派生的已知相互作用,红色虚线表示使用DeepCPI预测的新颖相互作用。)

图3. DeepCPI预测新型DTI的网络可视化

Deep CPI预测(1)在控制酒精戒断症状中广泛使用的中间作用苯二氮卓类药物也可以作用于转运蛋白,这是参与软骨内胆固醇转移的重要因素。(2)多巴胺被Deep CPI预测也与a2肾上腺素能受体(ADRA2A)相互作用。(3)聚噻嗪是一种常用的利尿剂,可以作用于碳酸氢酶。总之,由Deep CPI预测的新DTIs并在文献中得到实验或临床证据的支持,进一步证明了Deep CPI的预测性能。

四、总结

作者致力于预测新型CPI或DTI问题以促进药物研发过程,作者提出的DeepCPI是一种无监督的结合特征嵌入技术和深度学习的框架。通过实验和已知的CPI和DTI可推断DeepCPI可以通过大规模数据预测新型化合物和蛋白质的相互作用,并且验证了DeepCPI的预测的(i)可靠性,DeepCPI可以通过数据集预测已知的相互作用关系;(ii)正确性,DeepCPI预测的新型相互作用关系大部分可以通过实验验证是正确的;(iii)优越性。DeepCPI在预测化合物和蛋白质的相互作用方面和预测CPI方面优于现有的方法。作者提出的DeepCPI可扩展计算框架DeepCPI,将无监督的表征学习和特征嵌入与深度学习方法相结合,有广泛的应用前景(CPI、DTI)同时优于需要标签的其他模型,是一种推进药物开发进程的强大实用的工具。


代码

https:// github.com/FangpingWan/DeepCPI

参考文献

https://doi.org/10.1016/j.gpb.2019.04.003

0 人点赞