编译 | 杨家豪 审稿 | 程志祥
今天给大家介绍的是来自加州理工大学Zhuoran Qiao和NVIDIA团队发表在arxiv上的预印本《DYNAMIC-BACKBONE PROTEIN-LIGAND STRUCTURE PREDICTION WITH MULTISCALE GENERATIVE DIFFUSION MODELS》。作者提出了一种名为NeuralPLexer的扩散模型框架,这一框架能够利用蛋白的骨架模板以及分子图的输入,快速预测蛋白-配体复合物的结构以及它们的波动。另外,本文发现当NeuralPLexer应用于蛋白质折叠因为配体存在而显著改变的系统时,这一框架可以完善类结合态蛋白的结构。这一结果表明,数据驱动的方法可以捕获蛋白质和小分子实体之间的结构协作性,为新药物靶点的计算识别和功能小分子和配体结合蛋白的端到端可微设计展示了方向和前景。
简介
蛋白质的结构通过与小分子配体的相互作用动态调节,触发下游反应,这对调节生物功能至关重要。提出选择性靶向蛋白质的配体构想已经成为小分子疗法中日益重要的策略。但是,对于蛋白质配体结构的计算,物理模拟蛋白质状态转化时间长,成本高,另外现有的蛋白质折叠预测算法的静态性质也在阻碍这一计算。目前为止,虽然已经提出了一些方案去纠正这些问题,但是这些方法往往需要特定的专家干预而且缺乏统一的框架以系统和合作的方式来预测3D结构。
NeuralPLexer利用扩散生成模型从一个可学习的统计分布中采样3D结构。作者设计了一个具有结构化漂移项的有限时间随机微分方程(SDE),证明了生物分子复合体中的多尺度归纳偏差可以与扩散模型相结合。由于这个方程,NeuralPLexer可以只在不于备选蛋白构象成对的蛋白质-配体复合物上进行训练,就可以推广到配体未结合或者预测的蛋白质结构输入。当应用于蛋白质-配体的盲对接时,对比基线方法, NeuralPLexer对于几何准确性和结构质量都有提高。当应用于配体结合位点设计时,与Rosetta的方法相比,NeuralPLexer的inpainting版本可以准确地重新打包44%失败的AlphaFold2绑定位点,成功率提高了60%。另外,NeuralPLexer只需要分子图作为配体的输入,因此这一框架可以端到端的设计功能的小分子和配体结合蛋白,当它与最近提出的可微蛋白质序列和分子图生成器相结合。
方法
NeuralPLexer提出了两个阶段的结构来进行蛋白质-配体结构的预测。其中s表示氨基酸序列,x表示(N, Cα, C)的坐标,{G}表示一系列配体的分子图。
输入的蛋白质骨架模板和小分子图先被编码,并将其传入接触预测器。该预测器对{G}中每个配体的结合界面空间接近度分布进行迭代采样。输出的接触图为几何先验提供了参数,这是一个设计好的SDE的有限时间边际,它逐渐向数据分布中添加结构化的噪声。然后一个等变结构扩散模型(ESDM)通过学习反向时间SDE,对从几何学先验取样的原子坐标进行去噪处理,联合生成三维蛋白质和配体结构。
为了能够生成特定立体的分子几何形状,并对long-range几何关联进行明确推理,NeuralPLexer混合了两种类型的基本分子表征:a)原子节点和(b)表示两个相邻化学键形成的坐标框架的刚性节点。对于小分子配体的编码,使用了一种具有可学习的手性感知配对embedding的graph transformer,这个transformer是通过类似graph扩散核变换实现的。这种成对的嵌入是经过预训练的,为了与来自实验和计算的分子构象的分子内三维坐标分布相一致。蛋白质骨架模板编码模块和接触预测器是建立在从AlphaFold2变种的不变点注意(IPA)的稀疏版本上,并与标准图注意层和边缘更新块相结合。
ESDM的架构源于先前关于点云的3D图和attention neural network,刚体模拟和生物聚合物表示学习。通过将虚拟点集之间的成对距离编码到图转换块中,几何感知消息在所有节点之间同步传播。向量特征fv的显式非线性转换仅通过坐标帧反转机制在刚体节点上执行,这样节点更新块在不牺牲相等方差或计算效率的情况下具有足够的表达能力。相反,仅更新原子节点的三维坐标,而刚体框架(t, R)则根据更新的原子坐标被动重构,从而避免了在操作刚体对象时拟合四元数或轴角变量的数值问题。在刚体节点上的奇偶反演操作的非平凡作用确保了ESDM能够捕捉到正确的手性对称性破缺行为,并遵循分子立体化学约束。
结果
Fixed-backbone protein-ligand docking.
NeuralPLexer实现了对几何精度(报告为配体重原子均方根偏差(RMSD))和较低的空间碰撞率(Lennard-Jones能量为> 100千卡/摩尔的配体重原子的比例,使用UFF参数)的改进。
Ligand-coupled binding site repacking.
NeuralPLexer能够通过关节蛋白配体修复修复44%的AF2结合位点。与基于能量的柔性配体-受体建模方法RosettaLigand相比,NeuralPLexer在配体精度、结合位点精度和物理合理性方面的组合度量上提高了高达60%的成功率。
Cryptic pockets and binding-induced protein conformation transitions.
NeuralPLexer在执行关节蛋白质配体生成时,将采样集合向束缚态(holo)结构转移,与无条件仅使用蛋白质的采样结果相比(a)。人工评估显示,NeuralPLexer正确地预测了与生物相关的运动,如图b-c中的例子所示,但目前更系统的检查受到TM-Score和lDDT-BS对绑定无关波动的敏感性的阻碍。注意到 native contact analysis algorithms可能为解释蛋白质生成模型提供改进的度量标准,并认为这是未来的发展方向。
结论
作者提出了一种基于学习的动态骨干蛋白配体结构预测方法,建立了相对于基线方法的准确性和采样效率优势。作者预计将结合最先进的蛋白质表示学习技术,如使用序列进化信号、预训练的语言模型或更高层次的注意机制和大规模结构数据集的训练,以进一步改进方法,促进在各种下游分子设计问题中的应用。
参考资料
Qiao, Z., Nie, W., Vahdat, A., Miller, T.F., & Anandkumar, A. (2022). Dynamic-Backbone Protein-Ligand Structure Prediction with Multiscale Generative Diffusion Models.