编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自侯廷军教授团队的一篇论文。计算机辅助药物发现的一个重大挑战是高效地从头设计药物。虽然近年来已经开始有一些针对特定结构的三维分子生成方法,但多数方法并没有完全学习到决定分子形态和结合复合物稳定性的原子间互动细节。因此,很多模型难以为各种治疗目标生成合理的分子。为了解决这个问题,作者提出了一个名为SurfGen的模型。这个模型设计分子的方式就像锁和钥匙原理一样。SurfGen由两个等变神经网络组成,它们分别捕捉口袋表面的拓扑互动和配体原子与表面节点之间的空间互动。SurfGen在多个基准测试中的表现优于其他方法,并且对口袋结构的高敏感性为解决由突变引起的药物耐受性问题提供了有效的解决方案。
药物的设计通常通过两种方法来进行:基于配体的药物设计和基于结构的药物设计(SBDD)。人们普遍认为SBDD在产生新药候选者方面更为有效,因为它模拟蛋白质如何与小分子相互作用来产生生物效应。SBDD提供了两种主要方法:虚拟筛选,通过评估化合物库中的分子与蛋白质目标之间的亲和力并选择排名前列的分子进行后续的实验验证;以及分子生成,通过优化口袋中的原子互动来设计与蛋白质强烈结合的化合物。组合化学揭示了潜在的类药分子的数量可以达到10^60,与此相比,现有化合物库的组合仍然微不足道。虚拟筛选在如此受限的化学空间中寻找化合物,这是虚拟筛选高假阳性率的主要原因。相比之下,基于结构的分子设计不预设一个预定义的化学空间,而是在适应性函数的指导下,通过组装一些基本组成部分(如原子或分子片段)自动创建候选分子。研究蛋白质口袋与小分子之间的相互作用至关重要。根据一个著名的理论,这种相互作用可以被抽象为锁和钥匙模型,强调了形状的互补性和能量匹配两个条件(图1AB所示)。理论上,成功的基于结构的药物设计(SBDD)可以基于这两个因素的准确评估来实现。现代的人工智能技术为分子相互作用的建模提供了新的视角。作者提出的新模型SurfGen(图1BC所示),受到蛋白质-蛋白质相互作用中表面表示的启发,采用了蛋白质表面通道作为SBDD的蛋白质表示,然后通过设计的图神经网络进行拓扑学习。作者的模型不仅可以学习这种几何相互作用,还可以更好地通过拓扑学习模拟小分子和蛋白质口袋之间的关系。除了学习有利于结合的相互作用模式,基于结构的分子生成还需要指定蛋白质口袋中提议化合物的原子坐标。为了可靠地做到这一点,作者设计了Geodesic-GNN和Geoattn-GNN来加强SurfGen中的等变性。
图 1
SurfGen作为一个SBDD方法,应该评估生成的分子与蛋白质口袋之间的亲和力。大多数分子生成模型以配体为中心,并主要用于探索化学空间,所以许多早期的研究更多地关注内在的分子属性,如药物样性质、合成性、多样性和新颖性。相比之下,SurfGen和其他最近提出的SBDD方法旨在实现一个更具体的目标,即生成能紧密结合给定蛋白目标的化合物。因此,对于这些新模型,生成分子的结合亲和力应该作为模型评估的基本指标。为此,作者收集了一些重要的治疗目标和相关的实验验证分子,以评估这些模型是否能在实际的药物发现项目中生成有竞争力的药物候选物。研究中使用的基线模型涵盖了一系列广泛的模型,从最近开发的基于深度学习的GraphBP和Pocket2Mol,到基于增强学习的Morld,传统方法LigBuilder。
测试分子生成能力
表 1
图 2
用于训练SurfGen的数据集是CrossDock2020,这是一个通过分子对接技术丰富了蛋白质-配体结构数据的训练库。文章使用Autodock Vina来评估小分子和蛋白质口袋之间的亲和力。值得注意的是,大多数其他方法也使用Vina进行亲和力评估,但它们经常执行对接模式,即在软件内部进行构象搜索后估计蛋白质-配体的结合能。尽管这种对接协议确实评估了小分子在口袋中的结合强度,但必须考虑到三维(3D)口袋分子生成模型使用的是已获取的直接定位在口袋内的知识。因此,软件的构象搜索可能会引入额外的不确定性,因为提议的姿势可能与模型最初生成的构象大大偏离。作为解决方案,作者引入了结合能的原位估计-score energy-来计算使用模型给定构象的生成分子的结合亲和力。这种评估可以更清晰地识别生成的3D结构的合理性差的情况。例如,对于GraphBP的结果(如表1所示),尽管其对接亲和力很不错,但其score energy出奇地高,甚至高于零,这表明GraphBP生成的这些口袋-配体构象热力学上是不稳定的。通过可视化GraphBP的输出(如图2所示),可以发现生成的3D结构是扭曲的,配体的质心与口袋的中心大大偏离。尽管对接程序可以对GraphBP的设计进行后处理,并通过重新定位分子在口袋的中心部分地解决问题,但分子拓扑的非理性最终导致分子在构象搜索过程中分裂成三个片段(参见图1中的GraphBP对接姿态)。这些片段可以更灵活地填充口袋的内部,从而产生高估计的亲和力。相比之下,SurfGen在两种亲和力预测设置下均表现出最高的性能,不仅超过原始配体的亲和力还超过其他两种SOTA深度学习方法,GraphBP和Pocket2Mol。这种性能表明SurfGen已经学会了目标口袋中分子构象的能量有利分布。传统方法LigBuilder与SurfGen有竞争,SurfGen优势有限。这一发现填补了经典和基于深度学习方法之间的比较的空白,提醒我们经典方法的优势,即通过优化给定的评分函数来生成分子。但是,LigBuilder在结合能量上的性能可能反映了方法学偏见,因为它通过优化预测的结合能量生成分子。相反,SurfGen是端到端的方法,这意味着结合能量没有包含在训练和生成阶段中。因此,SurfGen的卓越性能来自其学到的拓扑和几何相互作用,而不是对接方法的偏见,其他结果,例如与活性分子的相似性,进一步支持了这一主张。
基于靶标的案例分析
表 2
图 3
表 3
虽然在代表性测试集上评估模型的性能是机器学习社区的常见做法,但科学家和药物设计师更关心这些模型在现实场景中的表现。为此,作者进一步在作者策划的基准上比较模型,该基准包含了20多个治疗靶点(包括COVID-19靶点)及其实验验证的活性配体。这次实验与CrossDock测试集实验的不同之处在于,作者为每个目标收集了200个实验验证的分子,而在CrossDock中,每个目标结构只有一个相应的共晶分子作为参考。因此,能够绘制实验证明为活性的分子的活性分布。除了收集实验活性分子作为正对照外,作者还从化合物库中随机选择了200个分子作为负对照。
表2展示了不同方法生成的前5个分子的活性和相应的药物样性。此外,作者在图3b中提供了几个由SurfGen生成的分子和晶体分子的可视化。进一步考虑图3a中所示的结合能量分布,测量模型设计能力的明确标准被呈现出来。随机选择的分子作为负对照,代表可以生成可行的分子但对给定的靶标没有特异性的模型的基线。相反,实验验证的活性分子作为正对照,代表能够设计针对特定蛋白质的活性似的分子的模型的基准。一个SOTA模型生成的分子应该超过随机分布,并且接近活性分布,越向左越好。此外,(1)与活性的相似性和(2)为每个目标生成的分子的多样性提供了两个附加的补充视图以评估生成模型的质量。一个SOTA模型应该胜过随机基线,否则该模型没有显示出对给定口袋的有说服力的敏感性。虽然输出多样性的度量方式与相似性度量方式类似,但实际考虑更为复杂。遵循相似结构往往表现出相似效果的普遍原则,针对同一蛋白质的活性分子因此应该分享一定程度的相似性。因此,SOTA方法的多样性度量应该是适中的,即低于随机选择的分子但仍然保持一些多样性。虽然没有严格预定义的阈值,但作者认为,顶级表现的模型在多样性度量上应该胜过Morld,因为它通过在种子结构上迭代生成分子,从而在每个目标的样本之间引入相关性。因此,这些相关分子的多样性是最小的。总的来说,SOTA方法的确定基于四个标准:(1)结合能量分布应低于随机分布,越低越好(在图3a中描绘);(2)与活性的拓扑相似性至少应该高于随机分子(结果显示在表3中);(3)多样性度量应低于随机分子但高于Morld(结果显示在表3中);和(4)3D相似性度量,通过直接生成的分子对目标的晶体结构进行计算,应该高于对接的随机分子。
如图3a、表2和3所明显显示的,GraphBP和Morld未能满足任何四个SOTA标准。图2中的可视化显示,这两个模型生成的分子的可信度较低。Pocket2Mol相反,勉强满足相似性条件2和4,但显示出类似随机的结合能量分布和多样性,这意味着有改进的空间。传统方法LigBuilder生成的分子与随机分子相比,估计的结合能量较低,满足条件1,并且在某种程度上满足二维相似性和多样性条件2和3。然而,它未能在标准4上展现出优越的性能,可能是因为其内嵌的结合能量方法的偏见,该方法用于通过优化预定义的评分函数构建分子。与此相反,SurfGen满足所有四个条件,在真实世界的策划场景中实现了SOTA性能。
参考资料
Zhang, O., Wang, T., Weng, G. et al. Learning on topological surface and geometric structure for 3D molecular generation. Nat Comput Sci (2023).
https://doi.org/10.1038/s43588-023-00530-2