在药物发现领域,准确有效地预测蛋白质与配体之间的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究主要是利用基于序列或结构的表征来预测蛋白质与配体的结合亲和力,而对蛋白质与配体相互作用至关重要的蛋白质表面信息的研究相对较少。此外,在处理蛋白质的多模态信息时,传统的方法通常以直接的方式连接不同模态的特征,而不考虑它们之间的异质性,这导致无法有效地利用模态之间的互补性。
2024年6月21日,厦门大学刘向荣教授团队在Bioinformatics上发表文章Surface-based multimodal protein–ligand binding affinity prediction。
作者提出了一种新的多模态特征提取(multimodal feature extraction, MFE)框架,该框架结合了来自蛋白质表面、3D结构和序列的信息,并使用交叉注意力机制在不同模态之间进行特征对齐。实验结果表明,MFE在预测蛋白质配体结合亲和力方面超越了现有的方法。
MFE的架构如图1所示,包括(a)结构特征提取;(b)表面特征提取;(c)序列特征提取;(d)多模态特征融合这四个模块。
图1 MFE结构图
蛋白质结合袋是指直接与配体结合的蛋白质表面或内部空腔,在决定蛋白质与配体结合亲和力方面起着重要作用。它周围的氨基酸残基决定了它的物理和化学性质和功能,这些性质对蛋白质和配体之间的特定相互作用至关重要。因此,在蛋白质-配体结合亲和力预测中,利用蛋白质口袋信息可以更准确地预测蛋白质与配体的结合能力。然而,如果只考虑蛋白质口袋的表面和结构信息,则忽略了蛋白质的全局信息。从微观角度看,蛋白质本质上是一长段氨基酸序列,该序列在三维空间中发生折叠等变化,形成完整的蛋白质结构。因此,作者使用完整的氨基酸序列来表示蛋白质的整体信息。
如图1a所示,蛋白质作为一种生物大分子,具有复杂的结构。它通常用残基图来表示,其中节点表示氨基酸残基,边表示残基之间的相互作用,如氢键、疏水相互作用或空间接近关系。目前,图神经网络(GNN)被广泛用于捕获蛋白质残基图的特征。然而,GNN主要关注图中节点之间的拓扑关系,而不是这些节点在三维空间中的具体位置和方向。几何向量感知器(GVP)通过不仅集成拓扑特征,而且集成节点的空间方向和位置来解决这一限制。作者使用GVP-GNN来提取蛋白质的三维结构特征。该GNN中的所有节点和边都使用包含标量和向量的元组来表示,从而能够通过几何和关系推理高效地表示蛋白质的3D结构。
如图1b所示,蛋白质分子表面携带重要的几何和化学信息,指示它们与其他分子相互作用的方式。在这里,使用dMaSIF中提出的采样算法,从底层原子点云实时计算和生成蛋白质表面。具体来说,首先输入包含22种原子类型的原子云,并采样以获得蛋白质表面的定向点云表示。然后选择离配体中心最近的512个表面点作为表面口袋。
对于每个选定的点,作者不使用传统的蛋白质化学描述符(如静电电荷或亲水性),而是选择16个最近的原子中心及其原子类型,通过多层感知器计算化学特征向量。正如dMaSIF所证明的那样,泊松-玻尔兹曼静电等化学性质可以通过原子类型分布等原始化学特征来模拟。另外,为了描述表面点云的几何特征,计算了平均曲率和高斯曲率作为每个点的几何特征,并将得到的几何特征和化学特征拼接在一起作为一个完整的特征向量。
接着,作者使用准测地线卷积层来获得曲面点的最终标量嵌入。这是一种应用于蛋白质表面点云的卷积运算,它能够直接从蛋白质表面点云中学习问题特定的特征,而不是依赖于预先计算的描述符。准测地线卷积对三维旋转和平移是不变的,这意味着该模型可以根据蛋白质表面的局部化学和几何性质做出预测,而与蛋白质在空间中的特定位置无关。
如图1c所示,蛋白质的性质和功能是由它的氨基酸序列和它在三维空间中的折叠方式决定的。蛋白质的一维氨基酸序列可以看作是一种特殊的“生物语言”,与自然语言有着天然的相似性。许多基于自然语言处理(NLP)的方法可以直接扩展到处理氨基酸序列。在这里,作者通过ProtBERT对输入序列进行处理,以获得模型的初始序列嵌入。这是一种基于掩码语言建模(MLM)目标的蛋白质序列预训练模型。它在公共数据集Uniref100上进行了预训练,可用于蛋白质序列分析和预测。
如图1d所示,蛋白质多模态的有效融合受到其不同模态的异质性和尺度差异的影响。在处理蛋白质数据时,常用的连接嵌入等技术往往忽略了不同模式之间的异质性,这可能导致模式特异性特征的丧失(Hu et al. 2023)。Transformer体系结构为这个问题提供了一个有效的解决方案。它能够处理序列数据,通过自注意机制捕获远程依赖关系,并通过跨注意层学习不同模态之间的数据,实现特征的有效对齐和融合。
具体而言,首先使用Transformer Encoder对蛋白质表面的嵌入进行处理,利用自注意机制深入学习蛋白质表面的细节和特征。随后,通过Transformer Decoder,将蛋白质的结构和序列嵌入与Encoder处理后获得的新表面嵌入进行全局对齐。这既保留了每个模态的独特信息和互补性,又促进了不同模态之间的有效沟通。最后,分别对表面、结构和序列的新嵌入应用平均池化。然后将这些集合嵌入合并以创建统一且上下文丰富的特征表示。该方法的应用不仅提高了预测的准确性,而且为认识蛋白质的复杂性提供了新的视角。
对于小分子配体,作者将其视为二维图,配体中的原子对应图中的节点,原子间的共价键对应图中的边。AttentiveFP用于学习配体的表示。这种方法可以利用注意力机制来捕捉原子间复杂的相互作用。它具有一定的可解释性,在各种任务上都能取得良好的性能。为了更好地研究蛋白质与配体之间的相互作用,作者构造了一个蛋白质-配体样本的异构图,利用边缘池化和多层感知器,分别在蛋白质和配体这两组节点上进行消息传递,构建了整个异构图的全局嵌入。
在模型的最后,将蛋白质的多模态特征嵌入、配体图的嵌入和异构图的嵌入连接起来,并将它们传递给多层感知器进行亲和力预测。模型采用均方误差(MSE)作为损失函数,使用Adam优化器对参数进行优化。
作者将MFE与一些具有代表性的方法进行了比较,将预测结果与实际结果的均方根误差(RMSE),平均绝对误差(MAE),标准差(SD)和相关系数(R)作为对比指标(前三个指标越低越好,最后一个指标越高越好)。如表1所示,MFE在所有指标上均超过了其他方法。(表1中划横线的表示表现第二好的方法CurvAGN)。
表1 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。MFE包括(a)结构特征提取(b)表面特征提取(c)序列特征提取(d)多模态特征对齐这四个模块。作者分别去除这四个模块中的一个,对比其与完整模型的结果,如表2所示。结果表明,当去除表面信息时,性能明显下降,表明表面信息在模型中的关键作用。同样,排除结构信息或序列信息都会导致性能下降,而消除序列信息会导致更显著的性能下降。这是因为序列信息包含了蛋白质的全局信息,这对于模型全面了解蛋白质至关重要。此外,在没有特征对齐的情况下,模型的性能会下降。这强调了特征对齐在处理多模态数据中的重要性,因为它有助于减少不同模态特征之间的异质性,从而提高模型有效整合不同模态特征的能力。
表2 消融实验
作者还进行了案例分析。为了研究特征对齐对模型性能的影响,使用主成分分析(PCA)对测试集中蛋白质的表面、结构和序列特征进行降维和可视化分析。该方法旨在确定特征对齐是否可以减轻多模态嵌入之间的异质性。如图2所示,蓝色节点表示表面嵌入,橙色节点表示结构嵌入,绿色节点表示序列嵌入。图2a为特征对齐前的降维可视化,图2b为特征对齐后的结果。
分析这两个子图的结果,可以发现,特征对齐前的可视化描述了节点在二维空间中的分散分布。具体而言,结构(橙色)嵌入和序列(绿色)嵌入节点倾向于沿维度1聚集,而沿维度2则呈现分散排列。表面(蓝色)嵌入节点更均匀地分布在两个维度上。经过特征对齐过程,这三类节点在二维空间内的集中度明显提高。值得注意的是,表面(蓝色)和结构(橙色)嵌入节点的空间密度大幅增加,这表明由于对齐,数据特征一致性得到了显著增强。由于序列(绿色)嵌入节点对应整个蛋白质序列的嵌入,蓝色和橙色节点分别对应蛋白质口袋的表面和结构嵌入,因此经过特征对齐后,绿色点更加弥散。然而,它们表现出向中心聚集的倾向。因此,分析表明,特征对齐可以提高模型处理和融合多模态数据的能力。
因此,特征比对显著增强了蛋白质表面、结构和序列嵌入之间的一致性。这是由于Transformer通过注意机制优化了多模态特征交互,该机制计算不同特征之间的注意权重。这增强了模型捕获关键信息的能力,允许来自不同模式的数据在特征空间中更紧密地聚集,从而减少模型识别蛋白质-配体相互作用时的噪声和错误。
图2 案例分析
本文提出了一种新的框架MFE,统一了来自蛋白质表面、3D结构和序列的信息,并使用Transformer来对齐不同模态的特征。在蛋白质-配体结合亲和力预测任务中的评估证明了该模型的有效性,表明通过研究蛋白质的表面可以更了解蛋白质如何与其他生物分子相互作用。在未来的工作中,有必要更深入地探索蛋白质表面信息,以揭示它们在生物信息学中的更广泛应用。
参考文献
Xu et al.Surface-based multimodal protein-ligand binding affinity prediction. Bioinformatics. 2024