2022年2月18日,来自上海交通大学的严骏驰、袁野、潘小勇与百图生科的宋乐等人在ArXiv上发表文章,从(深度)图学习角度,基于生成策略将分子生成和优化方式分为三种:一次全部、基于片段和逐节点。概述了最先进的分子设计(和主要用于从头药物设计)和发现的辅助方法。
介绍
在药物开发过程中,产生具有良好质量的化学分子并优化以获得所需的特性特别重要。挑战在于如何应用机器学习方法来产生有或没有额外约束的“好”分子。到目前为止,研究人员已经设计了不同的方法和模型,包括许多生成模型、基于强化学习 (RL) 的模型、基于采样的模型和进化方法。在表征分子方面,几种类型的分子表征形式从简单的分子实体序列到手动预定义的分子特征都已被广泛提及,而基于字符串和基于图的表征是近年来使用的两种主要方法。由于基于图的表征可以捕捉到分子的固有结构,因此本文主要研究基于图的方法。
本文对近年来提出的不同的基于图的最新分子生成和优化方法进行了全面回顾,并对其进行了分类。就其生成策略而言,分为三类,即一次全部、基于片段和逐个节点。如图1。本文还讨论了具有代表性的公共数据集以及常见的评估指标。
图1: 三种典型的分子生成策略
为了对现有的从头分子生成或分子优化方法进行分类,在本文中,作者描述了它们的主要特征,如表1所示。
表1: 分子生成和优化的最新代表模型
不同策略的代表模型
策略I: 一次全部
有许多深度图生成器可以一次生成整个分子,作者称之为”一次全部”。
VGAE是基于变分自动编码器 (VAE) 的基于图的数据的无监督学习框架。图生成器利用潜在变量并学习可解释的潜在表征来生成新的分子图。与只能从单个输入图学习的VGAE不同,GraphVAE提出了另一种基于VAE的生成模型,可以从一组图学习。GraphVAE的编码器使用图卷积网络 (GCN) 将输入图嵌入到连续表征z中,而GraphVAE的解码器输出受预定义最大尺寸约束的概率全连接图。RVAE是另一种基于AE的分子生成模型,它提出了一种新颖的正则化框架来保证动力学的有效性。为了生成更大尺寸的图,一个名为MPGVAE的模型将消息传递神经网络 (MPNN) 应用到VAE的编码器和解码器,避免了复杂的图匹配操作。MolGAN则提出了一种利用生成对抗网络 (GAN) 的小分子图的隐式生成模型。
策略II: 基于片段
已经提出了许多采用合理子结构 (也称为片段) 的模型,作为生成高质量分子的构建块,这些分子在这里被归类为”基于片段”。其中,有些基于AutoEncoder框架。较早的工作提出了一个名为JT-VAE的模型,另一个基于AE的模型是Hier-VAE,为了生成有效的分子图,MHG-VAE提出了分子超图语法 (MHG) 来编码化学约束。作者提出了一个反应模型来预测这些生成的反应物如何一起反应生成新的分子。采用WAE涉及最小化的目标函数来学习模型参数,取代了VAE。
还存在一些使用强化学习 (RL) 来优化生成分子特性的工作。Ratio-naleRL使用原理是分子生成的基础。Ratio-naleRL的第一步是通过MCTS从分子中提取可能负责每个性质的原理,并将它们组合以获得多个性质。Ratio-naleRL使用图生成模型将理论扩展为完整的分子。为了生成逼真的化合物,图生成器分为两个阶段进行训练,即预训练阶段和微调阶段。在对大量真实分子进行预训练之后,通过使用策略梯度的多次迭代,对图生成器进行了特定性质原理的微调。同样,在MolEvol中,作者采用了类似期望最大化 (EM) 的分子优化过程。该框架还包含两个阶段: Ratio-nales搜索阶段和分子完成阶段。另一个RL框架FREED,它将基于片段的生成方法和新颖的错误优先体验重放 (PER) 耦合起来,以找到化学上现实的和药效学上可接受的分子。该模型第二个动作取决于第一个动作,第三个动作取决于前两个动作。在采取第三个动作时,通过鼓励探索来优化对接分数。
MARS采用通用马尔可夫链蒙特卡罗 (MCMC) 采样框架,生成多目标药物分子。MARS建议通过从采样路径收集训练数据来自适应地训练编辑模型。MIMOSA是建立在MCMC采样框架上的另一种分子生成方法。Gibbs采样 (一种特定类型的MCMC) 可以用于选择哪些可能的分子以用于下一次迭代。Mol-CycleGAN采用基于CycleGAN的的方法,该方法基于初始的X产生具有所需性质的新分子Y。GFlowNet将生成过程视为流网络,旨在生成具有高回报的各种轨迹集。节点表征状态,边表征动作,边的权重 (即流) 表征采取动作的概率。
GFlowNet制定了一个生成策略,该策略以与给定的返回函数成比例的概率进行采样,并通过符合流匹配条件来训练生成模型。GFlowNet可以应用于分子生成问题,其中”状态”是当前分子,并且”动作”是将预定义片段词汇中的片段添加到当前moelcule (以及停止动作)。Moof仅编码优化前后的分子之间的差异。作者提出了moof-pipe在多个位点修饰给定分子。进一步增强为moof-pipe,其可以将给定分子修饰为多个优化分子。DEG提出了一种从小得多的数据集学习的数据高效生成模型,该数据集仅包含约~100个样本。给定一组分子结构和一组评估指标,DEG学习一种图语法,该图语法对最大化指标的分子进行采样,并从一系列生产规则中生成分子。
策略III: 逐个节点
除了直接生成整个分子并使用子结构作为构建块之外,近年来还提出了一些其他方法,以”逐个节点”的方式生成分子。
CGVAE是一种基于自动编码器的生成模型,它将GGNNs构建到编码器和解码器中。在生成过程中,一旦生成的子图更改,所有节点表征都应更新。此外,化价掩蔽被应用于扩展功能,以确保化学有效性。另一种基于AE的方法,该方法可以产生具有靶性质的分子,同时保持任意输入支架作为子结构。GCPN将生成视为马尔可夫决策过程 (MDP),并且通过添加键以连接现有原子或将新子图与当前分子图连接来顺序构建分子。图卷积网络 (GCN)和近端策略优化 (PPO)用于在每个动作预测过程中分别嵌入节点和优化策略网络。GAN用于确保生成的分子类似于给定的一组分子。
最近一个名为DeepGraphMolGen的模型通过将分子性质预测网络添加到GCPN中进一步改进了GCPN。预测网络由作为特征编码器的图卷积网络和前馈网络组成,并应用自适应鲁棒损失函数来避免潜在的严重错误。通过这种方式,GCPN获得了额外的额外回报 (例子是小分子与多巴胺转运蛋白的结合效力),因此DeepGraphMolGen可以生成具有理想特性的多目标分子。GraphAF是一种利用自回归方法的基于流的模型。上面使用离散潜变量和离散变换使GraphDF与其他基于流的方法不同,而生成分子的主要过程类似于GraphAF。最近的工作提出了一种基于生成树的图生成框架,名为STGG,该框架将分子生成视为生成树和残差边的组成。
数据集和评估指标
数据集
作者列出了在分子生成和优化任务中常用的代表性公开可用数据集,如表2所示。其中,ChEMBL和Drug-Bank是动态数据库,通常会随着时间的推移而更新。
表2: 分子生成的代表性数据集
评估指标
分子的生成和优化采用两组不同的评估指标。分子生成从统计角度评估生成的分子的整体质量,包括有效性 (生成的分子中化学有效的百分比),新颖性 (未出现在训练数据中的分子比例),多样性 (生成的分子之间的成对分子距离),唯一性 (独特分子的比率) 和重构 (可以从其潜在变量重构的分子的百分比)。
至于分子优化任务,它采用了另一组基于生成分子的多性质进行评估的指标,例如QED (药物相似性的定量估计),SA (合成可达性),logP (辛醇-水分配系数) 等。
挑战和未来方向
尽管基于图的深度学习在分子设计自动化方面取得了巨大成功,但由于分子结构的复杂性,挑战仍然存在。作者提出了三个未来的进一步研究方向。
聚合物。现有工作主要集中在小分子设计上,当应用于设计更大的分子 (如聚合物) 时,它们的性能会显着降低。失败可能是由于实现较大分子所需的许多生成步骤以及跨迭代步骤的梯度的相关挑战。因此,应该开发新的方法来应对更大的分子。
目前,生成3D分子几何结构仍未得到充分探索。与基于SMILES和基于图形的表征相比,附加维度显着扩展了要探索的分子空间,这增加了难度。然而,由于3D坐标对于准确预测量子性质很重要,因此生成3D分子是有意义且必要的。无论其意义如何,有限的工作都与之相关,因此需要进一步的研究努力。这里是指为特定疾病生产可能的相关药物,化学空间是巨大的,但是相比之下,具有某些期望性质的分子子集要小得多,例如针对给定靶标的活性,这使得它们非常适合发现候选药物。
靶点发现的核心在于从化学空间的有希望的区域采样化合物,并筛选它们对生物靶点的活性。寻找与给定靶点蛋白结合的小分子是该领域的一项艰巨任务,也称为基于结构的药物发现。然而,在靶蛋白上进行药物设计的例子很少,在未来的工作中留下了挑战。
讨论与结论
不同级别的生成方法在特定应用中可以具有不同的优势。通常,在节点级别的细粒度级别的操作是灵活的,而其生成效率可能较低,并且难以建模更高级 (子) 结构信息。虽然基于片段的方法允许编辑分子的子结构,但这通常对某些特定的功能和反应有意义。最后,一次全部的方案可能是高效的,但有时可能缺乏足够的灵活性来进行增量生成和优化。产生具有理想特性的分子具有根本意义,尤其是在药物工业中。作者引入了广泛的基于图的深度模型,并根据其生成策略将其分为三类,总结了公共数据集和常用的评估指标。最后,作者还讨论了这一令人兴奋的领域的挑战和未来的发展方向。
参考资料:
Molecule Generation for Drug Design:a Graph Learning Perspective.
Nianzu Yang,Huaijin Wu,Junchi Yan,Xiaoyong Pan,Ye Yuan,Le Song.
ArXiv:2202.09212.
https://doi.org/10.48550/arXiv.2202.09212.
--------- End ---------