中山大学杨跃东团队提出MUSE模型,通过变分期望最大化框架预测蛋白质和药物相互作用

2024-09-12 17:09:26 浏览数 (3)

了解蛋白质与蛋白质、药物和其他生物分子的相互作用,对于破译生物学过程背后的分子机制和开发新的治疗策略至关重要。

目前的计算方法大多基于分子网络或结构信息来预测相互作用,而没有将它们整合到统一的多尺度框架中。虽然有一些多视图学习方法致力于融合多尺度信息,但这些方法往往过于依赖单一尺度而对其他尺度拟合不足,这可能与多尺度学习的不平衡性有关。

2024年5月24日,中山大学杨跃东教授团队在Nature Communications上发表文章A variational expectation-maximization framework for balanced multi-scale learning of protein and drug interaction。

作者提出了MUSE,这是一个多尺度变分期望最大化(EM)的表示学习框架(MUiti-Scale EM, MUSE),可以在多个迭代的交替过程中优化不同的尺度。该策略通过相互监督和迭代优化,有效地融合了原子结构和分子网络尺度之间的多尺度信息,显示了扩展到计算药物发现的其他尺度的潜力。实验结果表明,MUSE的性能超越了现有模型。

如图1所示,MUSE是一种多尺度学习方法,通过变分期望最大化(EM)框架,将分子结构建模和蛋白质与药物相互作用网络学习相结合。EM框架在多个迭代的交替过程中优化两个模块,期望步骤(E步骤)和最大化步骤(M步骤)。在E步中,MUSE利用每个生物分子的结构信息学习有效的结构表示,用于M步中已知相互作用和增强样本的训练。它将蛋白质和药物对及其原子级结构信息作为输入,并根据M步预测的相互作用进行增强。M步以分子级相互作用网络、结构嵌入和E步预测的相互作用作为输入,并输出预测的相互作用。这种E步和M步之间的迭代优化确保了分子结构和网络信息的交互捕获,在两个尺度上具有不同的学习率。相互监督确保每个尺度模型以适当的方式学习,使不同尺度的有效信息得到利用。MUSE缓解了多尺度学习中的不平衡特征,有效地整合了不同尺度的分层互补信息。

图1 MUSE结构图

变分期望最大化(EM)框架的核心是将原子结构尺度和分子网络尺度模型结合起来,在变分EM框架下进行多尺度网络的链接预测学习。给定观察到的变量概率YLV,未观察到的变量概率YLU,以及模型参数θ, ϕ,EM框架试图最大化观察到的交互标签的对数似然函数log pθ(YLU|YLV)。计算这种对数似然是计算上难以处理的,因为它需要对所有对象标签组合进行集成,因此,算法转而优化对数似然函数的证据下界(ELBO)。然而,通过EM算法直接导出最大似然估计量也是ELBO的一个挑战。因此,作者使用EM算法的变分逼近,通过迭代地交替优化p的一个替代分布q(称为变分分布)(即E步)和分布p(即M步)来优化下界。

在变分E步中,目标是固定pθ并更新qϕ,以最小化KL散度,也就是使得q和p尽量相似,在M步中,我们的目标是更新pθ以最大化似然函数,为了降低EM算法中pθ的计算复杂性,使用了邻域采样的伪似然函数。接下来,该框架可应用于多尺度网络中的链接预测,分别用原子结构尺度qϕ和分子网络尺度pθ模型实例化p和q分布。

变分E步旨在更新变分分布qϕ以近似真实后验分布pθ(YLU|YLV),目标是最小化后验分布与变分分布之间的KL散度。为了对每个相互作用的分布建模,用原子结构尺度GNNϕ参数化qϕ来预测相互作用的标签YLU。为此,使用生物分子的结构图G:药物分子图中,节点为原子,边为化学键;蛋白质分子图中,节点是蛋白质中的一组氨基酸残基,边是从蛋白质的原子级三维坐标的蛋白质接触图中得到的,选择10埃作为一对残基之间存在或不存在接触的阈值距离,构建邻接矩阵。原子或氨基酸残基的一系列物理化学性质可用作它们的节点特征。

现在,唯一的困难在于计算后验分布pθ,该分布旨在根据周围节点特征和边缘信息预测交互的标签分布。由于没有指定未观察到的相互作用的标签,因此,作者提出用分子网络尺度模型GNNθ预测的伪标签来标注未观测到的相互作用。直观地说,这个交互过程可以看作是一个知识蒸馏过程,通过引导原子结构尺度GNNφ模型根据分子网络模型GNNθ预测的伪相互作用来预测标签分布,从而优化原子结构尺度GNNφ模型,使用给定的标记交互进行训练。

因此,在M步中,需要学习参数θ并更新pθ以优化分子网络模型。由于节点表示已经由GNNϕ学习,GNNθ可在此基础上通过消息传递机制学习分子网络信息。更具体地说,使用GNNφ来生成结构表示g(0)作为节点初始特征,并将其输入分子网络模型以进行消息传递。同样,这里也可以被视为知识蒸馏过程,通过所有伪标签将原子结构尺度GNNφ模型捕获的知识注入到分子网络尺度模型GNNθ中,我们使用观察到的交互标签进行模型训练。

如图1所示,在每次迭代中,MUSE首先执行E步,为每个交互对构建结构图,然后使用结构图编码器来生成蛋白质或药物图的表示,并使用相互作用预测器来预测给定生物分子对的相互作用。这个原子结构尺度模型将相互作用的图对拉到一起,并根据结构属性对标签分布进行建模。在E步优化后,将结构表示和相互作用图送入分子网络级消息传递模块。在M步中,信息沿着网络中的交互传播,学习网络拓扑和邻居信息。因此,MUSE迭代更新E步和M步中的两个模块,直到模型收敛。更重要的是,其中一步模型提供了相互作用的伪标签来训练另一个,作为相互监督的一部分。分子网络尺度上生成的伪标签也可以作为原子结构尺度模型的数据扩充,而原子结构尺度上生成的伪标签可以通过添加伪边来训练分子网络尺度模型。

目前的研究认为,正是神经网络从不同尺度学习的不同速度导致了利用不平衡。MUSE对原子结构和分子网络尺度的迭代优化,使其能够减轻这种有害的不平衡,并在多尺度表示上实现更强的泛化。相互监督确保每个尺度模型以适当的方式学习,从而促进在不同尺度上有效信息的利用。这里,对于交互网络学习,则使用图同构网络(GIN)进行,它具有捕获图结构和学习分子网络信息的表达能力。

链路预测任务性能的限制来自于图的不完备性。为此,作者在MUSE框架中采用了伪似然学习,用原子结构尺度模型GNNφ预测的伪相互作用来增强分子网络图,对相互作用网络图进行了软性补充,然后用分子网络模型GNNθ对更完备的图进行最终预测。此外,该策略已扩展到迭代优化过程。

作者将MUSE与一些具有代表性的方法进行了比较,如图2所示。在本研究中,评测使用ROC曲线下面积(AUROC), F1评分和PR曲线下面积(AUPRC),其数值越高越好。表中括号表示标准差。结果可见,MUSE相对于现有方法在蛋白质-蛋白质关联预测、药物-蛋白质关联预测和药物-药物关联预测上均有显著提升。

图2 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。作者实现了MUSE的变体MUSE-joint,即使用联合训练(而非使用EM算法)来融合多尺度网络的训练过程,并在蛋白质关联预测的不同搜索方法(随机搜索、广度优先搜索、深度优先搜索)构成的数据集上进行验证。MUSE-joint的F1分数低于完整的MUSE,但由于其仍具有多尺度网络的结构,其效果也仍高于其他方法。

图3 消融实验

作者还进行了案例分析。为了更好地理解学习到的多尺度表征,作者从不同的角度对MUSE学习到的多尺度表征进行了研究,包括:(1)MUSE捕获PPI中涉及的原子结构信息的能力,以及(2)MUSE学习到的原子结构和分子网络表征之间的相互监督。

以结合位点预测(PDB id: 3CQQ-A)为例,MUSE可以准确地识别出属于结合位点的残基(图4a),准确率为97.7%。这表明MUSE中的相互监督有助于原子结构尺度模型学习与相互作用相关的关键子结构。学习到的原子结构表征(图4b)证实,MUSE学习表征有助于区分相互作用类型,而HIGH-PPI的分布接近随机,没有很好地利用结构信息。

为了说明相互监督的作用,作者进行了消融研究,以研究原子结构尺度预测的伪标签对分子网络尺度的影响。作者计算了PPI数据集上不同伪标记阈值下的最佳F1分数(图4c)。在不实施相互监督(t=0)的情况下,模型的最佳F1为0.908,仅略优于基线方法(0.886,HIGH-PPI)。随着阈值t的增大,MUSE的最佳F1分数提高很快。这种改进归因于向PPI网络添加了更多的伪交互,从而减轻了网络的不完整性。但是,当t>0.4时,随着阈值t的增大,性能逐渐降低,表明当t>0.4时,预测的伪相互作用噪声越来越大。

图4 案例分析

在这项工作中,作者提出了MUSE,将生物分子的两个尺度,原子结构尺度和分子网络尺度统一为一个多尺度框架。基于变分EM算法的迭代优化显著改善了多尺度表示学习的能力,使MUSE能够进行蛋白质和药物的多尺度学习,并可扩展到其他多尺度任务。

随着多尺度数据的不断增长,跨尺度数据的集成变得越来越重要。MUSE为非平衡多尺度数据的整合提供了一个有效的视角,突出了将原子结构尺度信息集成到分子相互作用预测中的优势。此外,MUSE中的分子网络尺度学习为进一步优化原子结构尺度模型以增强蛋白质表征提供了有价值的见解。

虽然MUSE在实验中展示了最先进的性能,但未来仍可以提高其处理噪声和不完整的多尺度下游任务的能力。这可以通过知识图谱和可解释的人工智能技术将先验知识结合起来。另一方面,MUSE也显示出扩展到计算药物发现的其他尺度的潜力,加深对分子多个结构尺度的理解,有助于有效的药物发现。

参考文献:

Rao et al. A variational expectation-maximization framework for balanced multi-scale learning of protein and drug interactions. Nat Commun. 2024

0 人点赞