CELL SYST|多目标神经网络框架预测化合物-蛋白相互作用和亲和力

2021-02-04 14:32:49 浏览数 (1)

作者 | 龙文韬 校对 | 李仲深

这次给大家介绍清华大学交叉信息研究院的曾坚阳教授课题组在Cell Systems上发表的论文“MONN: A Multi-objective Neural Network for Predicting Compound-Protein Interactions and Affinities”。分析化合物与蛋白质的相互作用 (Compound-Protein Interactions ,CPIs)在药物研发过程中起着至关重要的作用,迅速准确地预测作用位点和其间的亲和力有利于高效的药物研发。基于此问题,曾坚阳教授课题组引入深度学习,提出了一种预测化合物-蛋白相互作用和亲和力的多目标神经网络-MONN。作者在方法中引入了(i)捕获全局特征的超级节点、(ii)预测亲和力的GRU模块(Gate Recurrent Unit,门循环单元模型)、(iii)预测化合物-蛋白结合位点和判断其间的亲和力指标的多目标共享特征结构,使得其模型具有比现有模型更好的特征可解释性,有效捕捉了化合物与蛋白质的内在特征与联系,实现精确判断分子间的相互作用和亲和力。

一、研究背景

药物研发过程中识别化合物与蛋白质的相互作用必不可少,虽然实验方法已被广泛应用于药物候筛选和性质表征,但从大规模化学化合物中筛选出能与蛋白质亲和的样本往往是极其耗时并且消耗资源。

为了克服这一问题,通常使用两种计算方法来减少药物的开发时间和实验工作。(1)基于结构的计算方法。这类方法在计算过程中高度依赖于蛋白质靶标的高质量三维结构数据来预测。此外,这类方法通常需要大量的计算资源。(2)基于深度学习方法。此类方法充分利用输入化合物和蛋白质序列的特征来预测它们的结合亲和力,其中代表性方法有DeepDTA 和DeepAffinity;它们只需要简化分子线性输入规范(Simplified Molecular-Input Line-Entry System, SMILES)的化合物和蛋白质的初级序列作为深度神经网络架构输入,来提取数据的上下文特征。然而现有深度学习方法,由于对化合物或蛋白质区域中富集的结合位点具有一定偏好性, 从而对CPI的局部结合位点预测效果较差。此外,由于缺乏基准数据集和评估标准,对这种学习能力的系统比较和评估仍然缺乏。

基于以上观察,作者构建了一个包含化合物原子与蛋白质残基之间的成对非共价相互作用的基准数据集并全面评估了不同神经注意力框架。并且作者开发了多目标神经网络MONN,以学习预测化合物-蛋白结合位点与其间的亲和力。

二、模型与方法

2.1 MONN框架介绍

MONN架构主要分为三大模块(如图1所示): (i)特征提取模块,(ii)相互作用预测模块,以及(iii)亲和力预测模块。在特征提取模块中,MONN 除了传统的图形卷积模块学习蛋白质序列特征外,还特别使用了图形翘曲模型(Graph Warp Module)来学习整个化合物的全局特征和化合物的单个原子的局部特征,以更好地捕获化合物的分子特征;在相互作用预测模块 (Pairwise Interaction Prediction Module),它可以捕捉化合物原子与蛋白质残基之间的非共价相互作用,并从现有的高质量三维化合物-蛋白质结构中提取的标签中得到额外的监督;最后,在亲和力预测模块中,MONN通过将化合物和蛋白质特征之间的共享信息有效地传递到下游亲和力预测模块中,并且利用成对非共价相互作用预测结果来辅助预测结合亲和力。

图1. MONN总体预测流程图

2.2 MONN提取特征

对于一个化合物-蛋白质对,首先使用GCN 模块(Graph Convolutional Network,图卷积模块) 和CNN模块(Convolutional Neural Networks,卷积神经网络)分别从输入化合物分子图和蛋白质序列中提取原子特征和残基特征(如图2中B与C所示)。

图2.特征提取模块

在GCN模块中,每个原子的原子类型、程度、显价、隐价和芳香性编码成向量组成初始原子特征矩阵;然后,通过图卷积的不断迭代处理原子特征,生成一组更新的原子特征和 一个表示整体特征超级节点特征。在CNN模块中,蛋白质序列首先使用BLOSUM62矩阵进行编码,相应列表示每个残基的初始特征,然后通过使用ReLU激活函数的一维卷积层更新初始特征,得到蛋白序列所有残基的最终输出特征。

2.3 MONN预测相互作用概率

相互作用预测模块处理两种特征,导出预测的成对相互作用矩阵,用于预测化合物原子与蛋白质残基之间的联系(如图3所示)。原子特征和残基特征首先通过两个单层神经网络分别转化到一个兼容的空间。然后根据变换后的原子与残基特征之间的内积,通过Sigmoid函数归一化处理,得到原子与残基之间相互作用的预测概率。

图3.相互作用预测流程

2.4 MONN预测亲和力

最后,使用亲和预测模块集成来自原子特征、残基特征和先前导出的成对相互作用的信息预测结合亲和力(如图4所示)。

图4. 预测亲和力流程

首先使用注意机制衡量单个原子的贡献,确定其收集的特征的权重,再由单层神经网络计算超级节点信息。然后使用翘曲门分别计算传递的信息。对于超级节点,组合来自超级节点本身和主要节点(原子)的信息完成迭代更新;对于每个原子,组合更新的原子特征和来自超级节点的信息完成迭代更新。最后使用两个GRU模块来确定原子和超级节点特征在下一层更新信息的比例。

三、实验结果

3.1 在可解释性方面与现有方法的比较

作者在这个实验部分主要与现有的神经网络方法在模型可解释性方面做了比较。首先,作者从如下三个方面进行方法的性能比较:预测化合物的相互作用位点、预测蛋白质的结合位点、预测化合物和蛋白质相互作用对。如图5(A)所示,作者用了两个指标(AUC和Enrichment)作为性能的评估指标。通过交叉实验的结果表明MONN在不同的实验对比组下都显著优于现有的方法。此外,作者还在独立测试集上做了进一步验证MONN的预测能力。如图5(B-E)所示在蛋白质序列中,绘制了单个位置的真实标签和MONN预测的置信度情况。对比结果表明AUC水平越高,MONN预测蛋白质上的相互作用位点与真实位点越一致。在低的AUC分数,MONN的预测与真实位点的偏差较大。

图5.与现有方法比较的结果

3.2 其他指标上的性能对比

作者在不同实验设置下与现有方法进一步做了对比。在IC50和KIKD数据集上,在不同交叉验证设置和不同聚类阈值下,作者比较他们提出两个MONN_single和MONN_multi和其他方法的皮尔逊相关性。实验结果表明作者提出的两个模型MONN_single和MONN_multi在的性能都优于其他方法(如图6所示)。此外,多目标模型的性能略优于单一目标模型,这表明两两交互标签加入额外的监督信息可以进一步提高结合亲和力预测效果。

图6. IC50和KIKD评估

此外,作者在PDB数据集上做了附加实验。结果表明即使使用三维无结构信息作为输入,MONN也可以成功地学习从高质量结构数据中导出的成对非共价相互作用。MONN模型交叉验证预测结果与真实结果十分接近,而对额外测试集的预测也有很有效(如图7所示)。此外,MONN泛化能力强,可以有效捕捉有意义但不在预测框架内的特征(如疏水性评分)。对于氢键受体原子,氢键施主原子和芳香原子MONN的预测结果与真实结果相近(如图7所示)。

图7. 其他指标评估

四、总结

作者致力于准确预测CPI问题以促进药物研发过程,作者提出的无结构输入多目标交叉神经网络MONN构架进一步探索了CPI的潜在机制。通过实验可推断MONN可以通过预测成对的非共价相互作用矩阵来推断化合物和蛋白质中的相互作用位点。而且MONN在预测亲和力方面和预测符合化学规则方面优于现有的深度学习方法。MONN相比那些结构依赖的方法有更广泛的应用同时也优于现有同目标的非结构依赖模型,是一种推进药物开发进程的强大实用的工具。


代码

https://github.com/lishuya17/MONN

参考文献

https://www.sciencedirect.com/science/article/pii/S2405471220300818

0 人点赞