BIB | DeepDTAF:一种预测蛋白质与配体结合亲和力的深度学习方法

2021-07-22 11:50:48 浏览数 (1)

作者 | 王天硕 编辑 | 龙文韬 校对 | 李仲深

配体与蛋白质之间的生物分子识别在药物发现和开发中起着至关重要的作用。然而,通过实验来确定蛋白与配体的结合亲和力是非常耗时耗力的。目前,已经提出了许多预测结合亲和度的计算方法,其中大多数通常需要蛋白质的三维结构,而这种结构并不常用。因此,需要新的方法充分利用序列水平的特征来预测蛋白质与配体的结合亲和力,加快药物发现过程。作者开发了一种新的深度学习方法DeepDTAF,来预测蛋白质与配体的结合亲和力。DeepDTAF是结合局部和全局上下文特征构建的。更具体地说,蛋白质口袋具有一些特殊的特性,可以直接与配体结合,这种特性首次被用作预测蛋白质与配体结合亲和力的局部输入特征。此外,空洞卷积被用来捕获多尺度的长程相互作用。作者将DeepDTAF与最新的方法进行了比较,实验结果表明DeepDTAF是一个可靠的预测工具。

一、研究背景

生物分子识别在许多生物过程中起着至关重要的作用。一般来说,在药物发现过程中,蛋白质通常作为靶标,需要与配体相互作用来调节重要的生物学功能。先前的研究也表明,蛋白质与配体的相互作用在介导酶催化、信号转导等生物分子功能方面至关重要。结合亲和力可以提供蛋白质与配体相互作用强度的重要信息。亲和力的成功预测在药物的虚拟筛选发现和再利用中起着至关重要的作用。

在本文中,作者开发了一种新的基于深度学习的方法,名为DeepDTAF,通过整合局部和全局特征来预测蛋白质与配体的结合亲和力。DeepDTAF包括三个独立的模块,即蛋白质模块,局部口袋模块和配体SMILES模块。每个模块的输入用序列残基或化合物的SMILES字符串表示。而序列的残差信息不仅包括序列类型,还包括序列的结构性质,即二级结构元素、物理化学特征等。蛋白质模块和口袋模块分别用于提取全局和局部特征。

二、模型与方法

图1. DeepDTAF架构图

2.1 输入表示

基于文本的输入信息包括三部分:配体表示、蛋白质表示和口袋表示,在之前的大部分工作中,蛋白质序列和配体SMILES的输入表示被证明是预测蛋白质与配体结合亲和力的有效方法。在这里,作者添加了额外的输入信息。详细的输入信息如下所示。

配体表示:将配体smiles中每个字符都用一个整数编码,如‘H’: 12, ‘N’: 14, ‘C’: 42, ‘O’: 48, ‘(’: 1。

蛋白质表示:(1)序列表示。大多数蛋白质通常由20种不同类型的氨基酸组成。此外,一些蛋白质中也含有非标准残基。本文利用21D one – hot向量对蛋白质序列中21种不同类型的残基进行编码。(2)结构属性信息。结构性质包括二级结构元素和物理化学特性。使用SSPro程序来预测每个序列的二级结构。这8类二级结构状态包括α-helix (H), residue in isolated β-bridge (B), extendedstrand, participates in β ladder (E), hydrogen bonded turn (T), 310helix (G),π-helix (I), bend (S) and coil (C)。使用8D onehot向量编码二级结构。此外,还根据侧链结构给出了非极性、极性、酸性、碱性,以及根据它们的偶极和侧链体积的7个基团来描述每个残基的理化特性。使用11D向量对其理化性质进行编码,综上所述,使用19D 向量表示残基的结构属性信息,加上21D 的序列表示,用40D向量表示每个残基。

口袋表示:通过将上述描述的序列表示和结构属性表示相结合,使用针对口袋的40D特征向量来编码局部口袋特征。

2.2 模型

在三个模块使用嵌入层,用128D密集向量来表示输入。该嵌入层将稀疏向量转换为更密集的向量。对于蛋白质模块,考虑到较长的蛋白质序列的长程相互作用,采用5种不同dilated rate的空洞卷积,配体模块采用4种不同dilated rate的空洞卷积。口袋模块采用三个普通的一维卷积。三个模块再经过最大池化后拼接在一起,输入到一个三层的神经网络中用以预测。

三、实验结果

表1. DeepDTAF表现

表2.DeepDTAF和其他方法在core 2016 test set上的对比

表3.DeepDTAF和其他方法在test105 set上的对比

表4.DeepDTAF和其他方法在test71 set上的对比

3.1 口袋特征的影响

作为局部特征的蛋白质结合口袋被认为是蛋白质配体结合亲和预测的重要信息。因此,作者测试了口袋特征的影响。首先,根据原始数据集删除口袋模块训练模型。表5中显示了删除口袋模块的性能,明显比原始DeepDTAF模型更差。这些结果表明,通过组合局部口袋特征和全局蛋白质特征,可以获得更好的性能,局部口袋特征包括蛋白质 - 配体结合亲和预测的极其重要的信息。

表5.消融实验对比

3.2 不同种类结构属性影响

为了研究DeepDTAF中不同类型的结构特性的影响,分别通过去除二级结构、理化性质进行了消融研究。实验结果如表5所示,理化性质起着重要作用。

3.3 基于预测的二级结构信息和真实二级结构信息间的比较

在本模型中,每个序列通过SSpro预测的二级结构被用作输入信息,此外作者还利用DSSP程序生成真实的二级结构信息与之对比。从结果可以看出,预测的二级结构信息与真实的二级结构信息的精度是相近的。因此,模型中使用预测的二级结构作为输入特征是合理的。

图2.DeepDTAF和使用真实二级结构信息的DeepDTAF对比

3.4 空洞卷积的影响

空洞卷积可增加感受野大小和捕获多尺度上下文信息。与传统卷积相比,空洞卷积的优势在于它可以捕捉长序列蛋白质中氨基酸残基之间的多尺度长程相互作用。在本文中,在蛋白质和配体模块中使用了空洞卷积来进行更精确的预测。此外,为了证明空洞卷积的重要性,通过用传统卷积代替空洞卷积来测试模型(表5)。结果表明,空洞卷积可以提供更好的预测性能。

四、总结

在这项研究中,作者开发了基于深度学习的方法DeepDTAF来预测结合亲和力。DeepDTAF在以下几个方面与其他算法有所不同。首先,结合蛋白质的局部和全局特征提取不同尺度的信息。其次,除了蛋白质序列特征之外,还为蛋白质添加了额外的结构属性,即二级结构和理化特性,这些属性具有更大的生物学意义。第三,在整个蛋白质和配体模块中使用空洞卷积来捕获多尺度长程相互作用。相关结果表明DeepDTAF是预测蛋白质-配体结合亲和力的可靠工具。


代码

https: //github.com/KailiWang1/DeepDTAF

参考文献

https://doi.org/10.1093/bib/bbab072

set

0 人点赞