2022年11月11日,波兰Jagiellonian大学的Tomasz Danel等人在Drug Discovery Today上发表综述Docking-based generative approaches in the search for new drug candidates。作者提出了基于对接的生成方法的新分类法,讨论了基于对接的生成模型的未来可能方向。
摘要
尽管现有化合物库的虚拟筛选很受欢迎,但寻找新的潜在候选药物也需要利用生成方案,即使用各种算法来推荐新的化合物。生成方法开始与分子对接相结合。本文总结了自基于对接的生成模型出现以来的进展。本文为这些方法提出了一个新的分类法,并讨论了它们对计算机辅助药物设计(CADD)领域的重要性。此外还讨论了进一步发展基于对接的生成模型的最有前途的方向。
背景
药物发现与人工智能的应用紧密相关,特别是应用机器学习对大量数据进行快速有效的分析。深度学习方法的快速发展彻底改变了机器学习,考虑到其巨大的潜力,深度学习也进入了CADD领域。它已经被用于开发QSAR模型,在虚拟筛选中用于改进基于对接的库的评分,预测配体-蛋白质结合活性,计算评估化合物的物理化学性质和吸收、分布、代谢、排泄和毒性(ADMET)特性等等。
深度学习桥接了CADD中使用的两种基本方法:对接和生成方法。基于结构的方法,特别是对接方法,已经成为一些研究的主题。生成方法在药物设计过程中的潜在用途已经得到了很好的体现。本文回顾了CADD中使用的生成模型和对接的组合。它对新药候选设计的潜在好处,包括通过生成方法探索新的化学空间的能力,并使用对接算法进行即时评估。
分子生成模型
在分子设计中,生成模型描述了能够通过现有分子(样本)生成新分子(样本)的深度学习模型。药物发现中的生成模型被用于加速新型治疗化合物的设计。
两种分子表征方法,即诸如SMILES或分子指纹的线性化文本表征,以及基于分子图的表征,在分子设计中得到普遍使用。相比于线性化文本表征,分子图能够有效描述原子之间的几何关系。分子图可以是2D或3D。2D图捕捉了原子邻域的信息,而3D图则捕捉了分子的构象(conformation)关系。
自回归(autoregressive)模型是CADD中应用最广泛的生成模型之一。他们通过在生成的每一步中选择最可能的修饰,从原子或原子片段中构建分子。
化学中使用的另一类生成模型是基于隐变量(latent variable)的模型。在这种方法中,分子是从一个连续的潜在向量空间解码的,这是一个通过数据枚举和模型训练构建的分子表征。自编码器是这些模型的典型示例,包括变分自编码器(VAE)和对抗自编码器,首先将输入分子编码为遵循已知概率分布之一的低维向量表征,然后从这个表征中解码化合物以匹配输入分子。随后,如果解码器是自回归网络,则可以如上所述对其进行微调,或者可以搜索潜在空间以在更易于管理和结构化的数据空间中识别潜在配体。生成对抗网络(GAN)是基于隐变量的模型的另一个示例,但它们使用判别器网络来评估从采样的隐变量解码的化合物,而不是使用编码器。
基于对接的生成方法中使用的分子对接软件
生成模型开始利用分子对接来寻找新的候选药物。最广泛用于新化合物生成相关任务的对接软件是AutoDock Vina及其衍生产品。它是一个开源的程序,在Apache的许可下,广泛用于基于对接的生成模型。其他包括:Smin,AutoDock Vina的一个分支,有一个改进的评分功能;QuickVina,使用启发式方法来加速对接;Glide,一个广泛而准确的工具;gnina,使用神经网络作为评分功能。NNs有时根据对接分数进行训练,并代替对接来加速这一过程。
模型评价指标
用于评价生成模型的基本指标是生成化合物的有效性、独特性和新颖性。此外,药物相似性的措施,如药物相似性的定量估计(QED)或合成可及性(SA)被用来评估这些分子的质量。在大多数药物发现项目中,拥有一组多样化的候选药物也很重要,这可以通过内部多样性或球体排斥多样性(SEDiv)来衡量。最后,目标生成模型最重要的指标是基于对接的措施。
对于三维生成模型来说,额外的衡量标准是验证所生成分子的正确构象,如三维最大平均差异值或生成的构象与参考构象之间的均方根偏差(RMSD)。对于一些模型来说,形状和药理约束是用Imrie等人提出的形状和颜色相似度得分等指标来检查的。
药物设计中基于对接的生成模型
基于对接的生成模型创建了多个类药物分子,同时通过利用计算对接模型增强了它们的结合亲和力。对接分数可以直接使用,例如作为优化奖励值的一个组成部分,或者间接用作过滤方法,其中仅从多个生成的结构中保留具有良好分数的那些。
本文将基于对接的生成模型分为两类:基于口袋的模型和基于靶点的模型。前者构建结合口袋的描述,并使用2D表征或直接在袋内构建3D分子图来创建最适合所述结合位点的化合物。后者专门针对所选药物靶点进行训练。它们可以通过强化学习、遗传算法或不同的迭代方法来指导。其他算法探索分子的潜在表征,以在预训练的生成模型中识别给定靶点的潜在结合物。如图1所示。
图1. 基于对接的生成模型用于新药发现
基于口袋的模型
基于口袋的模型使用结合位点的形状和物理化学性质,或者通过在模型中编码它们,或者通过使用对接评分函数来评估生成的构象。3D分子图或体素网格可以分别由图神经网络或卷积神经网络处理。这样,在某些情况下,靶点蛋白可以被替换,而无需模型再训练,并且模型的应用可以直接迁移到另一个靶点。
以binding口袋为条件的SMILES模型
3D结合的分子结构(包括靶标结合口袋)使用由CNN转换的原子密度网格编码到潜在空间。原子在3D网格中被编码为连续的类似高斯分布的密度,每个原子类型都有单独的通道。具有GAN丢失功能的条件变分自编码器(CVAE)用于训练,配体和受体密度网格形成CVAE输入,配体密度网格作为输出返回。为了从生成的网格中获得有效的分子,使用结合束搜索和梯度下降的算法来返回一组原子类型和坐标,它们与给定的原子密度网格最匹配,通过各自的键分配结合成有效的分子。
3D 生成模型
Luo等人开发了一个3D生成模型,该模型预测了结合位点区域中原子存在的概率。蛋白质和配体的原子被编码为通过k-NN算法连接的原子图,并且旋转不变的GNN被用于在3D空间中创建原子概率密度。接下来,自回归采样算法用于使用估计的概率密度从模型中枚举分子。
Li等人没有编码结合口袋,而是直接结合对接来对生成的分子进行评分。他们开发了一种包括两个网络的自回归方法。状态编码器是一个GNN,它创建部分构建的分子的表征,而策略网络决定应该向分子中添加何种修饰。该模型使用对接得分作为得分函数来对分子进行采样。
Peng等人开发了Pocket2Mol,这是一个基于等变生成网络的高效系统,它结合了GNN捕获靶点结合口袋的化学和几何约束以及采样算法,从而生成了基于3D口袋的新配体候选物。Pocket2Mol采用自回归策略,根据已经存在的原子,学习口袋内特定原子或键类型的概率分布。
基于靶点的模型
遗传算法
遗传算法 (Genetic algorithms,GA) 适合与对接分数作为适应度函数一起使用,并且具有不需要训练的优点。
受药物化学家欢迎的一个GA工具是LigBuilder。LigBuilder V3提供了一种多药理学方法来进行配体计数。它能够使用化学空间探索算法(CSEA)参照化合物对多个靶点的活性生成化合物。CSEA从将sp3碳原子放置在结合位点的随机选择点开始构建潜在的配体。然后,将新形成的分子分成片段,并将那些具有最高潜力的所需生物活性片段用作后续生长操作的起点。
表1. 基于对接的生成模型
强化学习模型
强化学习已被用于更集中地探索化学空间,以寻找结合分子。对接分数可以用作对生成的分子的奖励,以指导生成过程。
Olivecrona等人提出REINVENT模型,该模型使用强化学习用于输出优化。首先,在ChEMBL的子集上训练生成性RNN模型,以生成有效的SMILES。然后,使用强化学习训练智能体从而达到特定目标,例如提高对接分数。REINVENT增加了多样性过滤器,用类似的支架记忆结构,以推动模型生成分子的多样性。LibINVENT用强化学习模块实现最佳对接,使得生成分子具有多样性或可合成性。DockStream是一个对接平台,提供蛋白质和配体制备工具以及多个对接后端,可与REINVENT结合。
具有基于对接的评估的迭代模型
一些模型有能力产生新的分子,但除了启发式方法之外,没有其他方法来优化它们,以实现更好的对接。这里称之为迭代,因为生成的分子是朝着某个目标进行评估并进行相应过滤的。
一个可能的改进是使用SELFIES表示法。STONED在SELFIES中结合了一连串的逐点修改,以生成大量的所有有效的新分子(与使用SMILES时不同)。这使得通过点修改的"叠加"快速生成分子子空间,并从原始空间快速扩展。
另一个模型是基于蒙特卡洛树搜索(MCTS)。蒙特卡洛树搜索通过在每个选择扩展阶段向SMILES字符串添加单个级别来构建搜索树。然后在模拟阶段评估大量或随机生成的完整字符串。所有节点都会根据这些评估(反向传播)更新其当前得分。在随后的选择阶段,会更频繁地选择得分较高的SMILES。作者已经确定了一大部分的分子在给定目标上得分更高。
隐变量空间优化
与前面章节中描述的大多数方法相反,一些模型使用已经训练的生成器的潜在空间来发现新的binders,而不改变生成的过程本身。
这种方法的一个例子是OptiMol,算法使用VAE作为先验生成模型,使用贝叶斯自适应采样的优化。分子对接用于评估从隐藏空间解码的化合物并改变采样策略,评估采样的化合物,并调整高斯过程。深度3D链接器模型旨在以广度优先方式建立两个小分子图之间的连接。
另一个例子是条件3D生成模型,对于给定的原子,该模型生成一个新的条件概率,将生成模型与深度学习解决方案相结合,用于亲和性预测或对接姿态的预测,这将为化学结构的优化开辟一条道路。
总结
生成模型是CADD工具集的重要组成部分。与通常进行虚拟筛选的商用化合物库相比,它们能够探索新的化学空间。因此,它们在寻找新药中的受欢迎程度不断扩大。研究者们围绕提高生成对特定靶点有活性的化合物的有效性提出的方法,进行了深入的探索。本文总结了这些工作并提出了它们的分类。
--------- End ---------