Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战

2022-11-16 15:25:24 浏览数 (1)

2022年3月5日,麻省理工学院化学工程系的Klavs F. Jensen等人在Wires Comput Mol Sci (影响因子25.113) 杂志发表文章,概述了分子发现生成模型的最新进展和挑战。主要内容整理和编译如下。

摘要

传统的分子设计包括利用人类的专业知识来提出、合成和测试新的分子,这个过程可能是成本和时间密集型的,限制了可以合理测试的分子的数量。生成模型通过将分子设计重新表述为一个逆向设计问题,为分子发现提供了另一种方法。在这里,我们回顾了生成性分子设计的最新进展,并讨论了将这些模型整合到实际的分子发现活动中的注意事项。

我们首先回顾了开发和训练生成模型所需的模型设计选择,包括分子的常见一维、二维和三维表征以及典型的生成式建模神经网络架构。然后,我们描述了分子发现应用的不同问题,并探讨了用于评估基于这些问题陈述的模型的基准。最后,我们讨论了在将生成模型整合到实验工作流程中起作用的重要因素。

1 引言

传统的药物发现是成本和时间密集型的,限制了可以合理探索的分子的数量和多样性。现在迫切需要开发能够有效探索化学空间的方法,以确定能够解决化学和工程领域重要问题的分子。

生成模型提供了一个有希望的解决方案。生成模型不是利用人类的专业知识来设计分子,而是利用深度学习的最新进展来解决逆向分子设计问题:给定一组所需的特性,什么是能满足这些特性的分子集?通过识别将一组性质映射到一组结构的函数,生成模型可以快速识别出为特定应用高度优化的各种分子集。

自从它们最近被引入以来,应用于分子设计的生成模型的数量和种类都在激增。这些模型在其分子表现形式、结构和它们所解决的分子设计问题的类型上各不相同。此外,为了便于在越来越多的模型之间进行比较,最近人们提出了一些基准,根据分布学习、化学多样性和新颖性等因素对模型进行评估。

尽管有了这些显著的进步,但应用生成模型来发现具体应用中的分子的例子相对较少。大多数研究集中在优化分子的计算指标,如logP(分配系数的对数)或QED11(药物可能性的定量估计),很少有已发表的研究涉及实验测试所确定的先导分子。

在这篇综述中,我们简明扼要地总结了生成性分子设计技术的最新进展,描述了将这些模型整合到实际分子发现活动中的考虑因素,并讨论了为充分实现其承诺而必须解决的其余挑战。

2 背景

2.1 分子的表征

神经网络的优势在于它们能够接受复杂的输入表征,将其转化为解决特定任务所需的潜在表征。这样一来,输入表征的选择在管理模型如何学习分子信息方面起着关键作用。输入表征通常分为三类:(1)一维(如基于字符串的表征),(2)二维(如分子图),以及(3)三维表征(如基于坐标)。

一维表征法

最常见的一维表征法被称为SMILES,这是一种简单的基于字符串的表征法,根据预定的原子排序规则将分子转化为一串字符。将分子表征为一个字符序列已被证明是有利的,因为它可以重新应用以前为语言处理开发的神经网络架构。特别是,通过将分子表征为序列,先前的工作将递归神经网络训练为生成模型,生成分子的SMILES字符串。

不幸的是,这些方法容易产生无效的SMILES,无法转换为分子结构,因为它们忽略了SMILES符号的复杂语法。为了补救这个问题,Kusner等人和Dai等人用SMILES语法的语法约束增强了循环神经网络。然而,这些方法仍然不能捕捉到化学有效性,并且经常产生无效的SMILES字符串。鉴于SMILES符号的复杂性,Krenn等人设计了一种改进的字符串表征法,称为SELFIES(Self-Referencing Embedded Strings)。基于SELFIES表征,可以训练递归神经网络模型生成100%有效的分子。

二维表征法

分子也可以在神经网络中被表征为图形,其节点和边分别对应于原子和键。图形表征的强大之处在于它们直接捕捉原子之间的连接性,而在一维表征中,这一信息必须由模型来推断。不幸的是,事实证明图形比序列更难生成,因此,有许多努力旨在开发神经网络架构以生成真实的分子图。

一种策略是通过同时输出原子和图的邻接矩阵来生成分子图。相比之下,You、Li、Samanta和Liu等人开发了生成模型,按顺序逐个原子解码分子。Jin等人采取了一个相关的方法,将原子分组为子结构,并开发了一个模型,按子结构(也是按顺序)生成分子。这些子结构包括由一个键连接的两个原子或一个环中的所有原子(例如,一个苯环)。他们的模型首先生成了一个以子结构为节点的连接树,然后预测子结构应该如何相互连接。Jin等人后来将这种方法扩展到一个分层模型,允许使用更大的子结构。他们的模型在多个分子生成任务中的表现优于逐个原子的方法。

三维表征法

最后,分子可以用点云来表征--每个原子对应空间中的一个点--以便不仅捕捉共价原子的连接性,而且捕捉分子的构象偏好信息。例如,Gebauer等人通过将原子置于笛卡尔坐标中,按顺序生成分子。

将这些方法用于分子发现应用的一个缺点是,为了准确地捕捉物理特性,有必要考虑一个特定分子的一个以上的构象体。这些方法的第二个缺点是,它们通常使用能量最小化的力场来生成训练集中的分子构象,这可能很耗时,特别是对于大的、灵活的分子。最近,研究人员探讨了用三维生成模型取代/补充传统的构象生成方法,这些模型是在构象组合的大数据集上训练的,可以用来减少获得三维训练数据的计算费用。

2.2 模型结构

一个特定的深度神经网络的成功在很大程度上取决于它的结构--构成网络的层的类型和这些层的排列方式。用于分子发现的深度生成模型可以分成三类神经网络架构:变分自编码器(VAEs)、生成对抗网络(GANs)和归一化流模型,如图1所示。

图1 生成式建模中使用的主要神经网络架构的比较。变分自编码器(VAEs,顶部)、生成对抗网络(GANs,中间)和归一化流模型(底部)。

每种架构在学习分子的潜在表征时使用的策略不同。VAEs和归一化流模型的目标都是使训练数据的可能性最大化。VAEs使用变异推理技术近似地使可能性最大化,而归一化流模型通过要求模型是可逆的而使可能性完全最大化。相比之下,基于GAN的方法将分子生成表述为一个最小化的游戏,其中一个鉴别器模型学习区分真实数据和由生成器模型产生的虚假样本。这里我们将简要介绍这些方法是如何工作的,以及它们被用于分子发现应用的方式。

变分自编码器

变分自编码器(VAE)是一种生成模型,包括一个编码器,它学习将分子映射到一个连续的嵌入中,然后是一个解码器,它学习从学到的嵌入中重建一个分子。VAEs使用由两个项组成的损失函数进行训练:(1)一个重建损失,迫使解码器从其嵌入中恢复正确的分子;(2)一个Kullback-Leibler(KL)发散项,使所学分子嵌入的分布规律化,从而使生成的分子分布与训练分布非常相似。在分子生成方面,VAEs已经被用来生成SMILES字符串和分子图。

生成式对抗网络

生成式对抗网络是一种生成模型,由一个生成器和一个辨别器组成,生成器负责学习从高斯噪声中生成分子,辨别器负责学习识别分子是真实的(属于训练数据集)还是假的(由生成器构建)。这两个网络被训练成相互竞争,生成器学习生成足够真实的分子来欺骗辨别器,而辨别器则学习区分。GANs已经成功地生成了高度逼真的图像,部分原因是对抗性训练使模型能够学习一个更细微的定义,即什么使一个例子变得逼真,而不是通过VAEs的损失函数来获得。

然而,使用GANs生成序列和图形仍然具有挑战性,因为构建序列和图形需要通过离散的选择进行梯度反向传播。

归一化流模型

归一化流模型通过学习先验分布(如高斯分布)和现实世界的高维数据(如分子)之间的一系列可逆变换来生成分子。与VAE相比,基于流的模型的主要优势在于可逆映射允许计算精确的数据似然。这一优势促使Zang、Shi和Madhawa等人将基于流的模型应用于分子生成。

其他

除了这三个主要的生成模型类别外,研究人员还探索了其他类型的模型,用于与分子设计密切相关的任务。例如,基于扩散的模型已经被应用于分子构象的生成、基于反应的分子设计模型被用来生成易于合成的分子。

2.3 分子生成问题的分类

人们可能对发现新分子感兴趣的原因有很多。将生成模型应用于分子生成的第一步是将这些不同的应用表述为具体的问题陈述,例如,我们对发现具有X性质的分子感兴趣,但要遵守Y的约束。大体上,分子生成的问题陈述分为三类:(1)无约束的分子生成,(2)性质约束的分子生成,以及(3)结构约束的分子生成。

无约束的分子生成

无约束分子生成的目标是在没有任何性质约束(除了化学有效性)的情况下生成多样化的新分子。这对探索性的分子生成活动很有价值,因为这些活动的重点是识别有趣和不寻常的化学成分。对于这类问题,生成模型的目的是学习分子在化学空间中的一般分布(例如,分子通常是什么样子的?) 为了学习这种广泛的分布,生成模型通常要在大型的化合物数据库(如ChEMBL和ZINC)中进行训练,无约束生成模型通常根据生成化合物的化学有效性、新颖性和独特性进行评估。

性质约束的分子生成

性质约束的分子生成通过增加对生成分子的约束来扩展前面的表述。在这种情况下,一个模型所生成的化合物必须在化学上是有效的,并具有特定的、理想的性质,如良好的溶解性、低毒性或高效力。由于对每个生成的化合物进行实验验证是不可行的,因此有必要训练一个特性预测器来评估化合物特性,也被称为定量结构-活性关系(QSAR)模型。性质预测器是在一个单独的分子数据集上训练的,该数据集上标有它们的性质(例如,效力的IC50/EC50)。训练结束后,性质预测器被用来估计生成的分子是否满足给定的约束条件。

通过这种方式,生成模型学习生成通过性质预测器预测为满足约束条件的化合物。这项任务通常被认为是一个离散的优化问题,可以通过强化学习、贝叶斯优化或遗传算法来解决。在强化学习中,一个模型被训练来最大化基于性质预测器输出的预期奖励。

另外,贝叶斯优化方法可以用来通过学习分子的连续嵌入将离散优化问题变成连续优化问题。这些方法包括首先训练一个变分自编码器,将离散的分子映射到一个连续的嵌入空间,然后训练另一个神经网络,从其连续嵌入向量中预测原始分子的化学性质。然后,在连续嵌入空间中应用贝叶斯优化,以找到一个具有最佳相关性质得分的嵌入。发现的嵌入被解码器网络解码成一个离散的分子。

最后,遗传算法通过分子的突变寻找有利的化合物来解决离散的优化问题。

结构约束的分子生成

结构受限分子生成的目标是修改候选分子的结构,以改善其特性。这种方法对分子生成活动很有用,在这种活动中,具有理想特性的候选分子已经被确定,目标是探索密切相关的分子。在制药行业,这个过程类似于lead优化。结构受限优化的一个例子是Jin等人在2019年和2020年发表的工作,该工作将lead优化制定为一个图到图的翻译问题,其中模型学会将输入分子翻译成改进分子。该模型是在一个分子对的数据集上训练的,每个分子对包含两个类似的分子,其中一个比另一个不理想。在测试时,翻译模型学会生成具有更好特性的给定分子的类似物。

另一个结构受限的分子生成策略是限制输出分子包含一个特定的骨架或片段。Langevin等人和Li等人建立了生成模型,输出具有特定骨架的药物分子。这些骨架通常是从具有良好生物特性的现有药物中提取的。Jin、Podda、Imrie和Green等人也开发了类似的模型,学习生成具有特定片段的分子。

2.4 用于分子设计的生成模型的基准

大量的具有各种网络结构的生成模型已经被公布,用于分子生成。为了严格确定一个模型是否比另一个好或差,有必要制定基准指标,对在公开的数据集上训练的模型进行评估。正如不同类型的分子生成问题声明所证明的那样,生成模型有各种不同的目标,因此,有必要使用能代表这些目标的基准衡量标准。

最近的两个基准集,MOSES和Guacamol,为无约束的分子生成和面向目标的分子生成(包括性质约束和结构约束的分子生成,如表1所示)定义了这种指标。值得注意的是,虽然这些基准对比较生成性建模方法很有用,但它们并没有涵盖分子发现的所有必要方面。

表1 常见的生成性建模基准和它们的定义

无约束的分子生成基准

无约束分子生成的目标是生成(1)有效和独特的分子,(2)基于与训练集相匹配的化学分布,以及(3)新颖和多样化的分子。

分子的有效性通常是使用RDCit的分子结构解析器在价位和键方面进行测量。一个更严格的有效性指标被定义为通过一组给定的基于规则的过滤器的分子的百分比,如Walters的rd_filters实现,该过滤器集包括启发式规则,如最大环大小。使用基于规则的过滤器的一个注意事项是,它们通常是根据现实的分子来定义的,可能会错过生成模型产生的不寻常的功能团。一个模型产生的化学分布可以根据KL分歧来衡量。化学分布也可以通过比较训练集和测试集中常见的分子性质如分子量或logP的分布来评估。生成的分子的多样性可以通过新颖性指标、片段和骨架相似性(分别使用BRICS片段和Bemis-Murckolead)或Frechet ChemNet Distance来衡量。

目标导向的分子生成基准

使用目标导向的生成模型,目的是发现具有特定性质的分子。为了测试模型以简单和可重复的方式生成具有特定性质的分子的能力,Guacamol提出了基于相似性、重新发现、异构体识别和中位分子生成的基准。

相似性基准的目标是生成与从训练集中删除的目标分子相似的分子。重新发现基准与相似性有关,目标是重新发现被从训练集中删除的分子。异构体基准涉及到生成遵循一个简单模式的分子(这是一个先验的未知模式)。最后,中位数分子发现基准的目标是生成与多个分子相似度最高的分子。

此外,可以很容易通过计算测量的特性,如logP或QED,通常被用作额外的、以目标为导向的基准。值得注意的是,许多这些基准的开发或选择是为了快速和可重复地测量模型性能。因此,目标(最明显的是logP的最大化)是高度人为的,与任何实际应用没有密切关系。

3 为特定应用产生分子的实际考虑

如上一节所述,各种生成模型已经在理论上和计算上得到了发展和探索。尽管如此,在实际的分子发现活动中使用生成模型的例子仍然比较少。这是因为这些活动往往有一系列额外的障碍,使得直接部署生成模型的具体应用变得困难。

在这一节中,我们将讨论这些障碍,特别是关注(1)真实分子设计问题的多目标性,(2)所发现的分子必须是可合成的,以及(3)与容易出错的预测模型有关的挑战。

3.1 真实的分子设计问题通常具有多目标的性质

在应用环境中,我们经常有兴趣发现在一种或多种特性方面比任何先前已知的分子更优化的分子。除了这些特性之外,通常还有一些额外的目标或约束条件,这些目标或约束条件对于主要的设计目标来说是次要的,但对于分子在特定的应用中的作用来说同样是必要的。

当把生成性模型应用于真实的分子发现情景时,考虑如何捕捉相关的次要目标是至关重要的。常见的次要目标包括毒性、稳定性(通常与温度、光线和/或时间有关)、相行为、可溶性或腐蚀性。

在生成性分子设计中,有两类方法可以用来考虑多目标:显式多目标优化和结构引导的多目标优化,如图2所示。

图2 单一目标、显式多目标和结构引导的多目标优化的比较。显式多目标优化涉及结合多个目标(彩色)以获得一个目标函数,而结构指导优化涉及通过限制搜索空间来隐含考虑次要目标(灰色)。

显式多目标优化

明确的多目标优化包括明确地定义和优化与应用相关的每一个性质。这通常是通过使用单独的预测模型或评估器来考虑每个特性,并通过结合这些特性的目标函数进行优化。另外,如果该特性可以归因于分子中的特定骨架,则可以通过将相关骨架纳入生成程序来优化分子。通过明确定义每个目标,用户可以直接控制每个目标的相对重要性,使这种方法可以很容易地适应不同的应用。

然而,这种方法的一个挑战是,它需要一种自动的方式来预测或获得每一个相关的性质,而不需要人工干预。这对于具有较小的公共数据集的性质来说可能会成为问题,如毒性或相位行为,对于这些性质来说,训练高精度的预测模型可能是不可行的。此外,对于难以定义的性质,也很难训练预测模型。

为了说明这一点,请考虑这样的情况:我们想以自动的方式评估一个分子的合成是否可行。虽然使用计算机辅助合成计划(CASP)简单地确定是否可以为该分子找到合成途径似乎是一个很好的方法,但这种策略并没有考虑到可能会形成多少副产品,以及描述或分离这些副产品可能有多困难。这样一来,全面评估合成的可行性需要考虑多种因素的复杂组合,因此很难以自动化的方式进行预测。

结构引导的多目标优化

结构引导的多目标优化利用结构约束隐含地保持一些性质不变。如前所述,这可以通过基于候选物或基于骨架的优化来实现,其中先前确定的具有理想特性的起始候选分子或骨架在一个或多个额外特性方面得到改进。在前面描述的药物设计问题中,我们可能从一个可溶的、容易合成的但只有中等疗效的候选分子开始。在这种情况下,我们可以训练生成模型,以提高药物的疗效,同时保持其他每个理想的特性。

与明确的多目标优化不同,用户不需要定义每个次要目标,这使得考虑难以定义的目标变得很直接。这种隐式多目标优化也可以通过简单地将化学空间的探索限制在与训练中使用的分子相似的分子上来完成,尽管这确实限制了生成分子的多样性。

3.2 使用生成模型设计的分子必须是可合成的

在生成性模型问题中考虑可合成性的最直接的方法是将其明确地作为一个额外的目标。如前所述,这需要一个自动的方法来评估可合成性,而无需人工干预。虽然CASP工具(预测给定分子的合成途径)可以用来近似地评估,但它们往往计算成本太高,不能直接用于明确的优化。相反,人们提出了一些分数,以自动方式快速评估合成能力。如Ertl和Schuffenhauer提出的合成可及性 (SA) 评分、Coley等人提出的合成复杂性 (SC) 得分、Thakkar等人最近提出了逆向合成可及性 (RA) 评分等。

这样,目前开发的每一个分数都能捕捉到合成可行性的一些(但不是全部)方面。它们对指导使用生成模型的分子发现很有用,但仍可能导致一些合成上不可行的分子。

将可合成性作为次要目标的一个替代方法是使用生成模型,将CASP工具直接整合到生成过程中。例如,Bradshaw等人不是简单地生成单个分子图,而是生成合成途径,然后使用爬坡算法优化最终产品的特定特性。

这类模型的一个注意事项是,它们与CASP模型紧密结合,而CASP模型只能近似地预测逆向合成途径,因此,CASP模型的任何限制也会出现在生成模型中。这样一来,要求分子必须可以通过CASP模型发现,可能会限制生成过程中可获得的化学成分的多样性。

3.3 生成模型的工作流程依赖于确定性有限的预测性模型

如前所述,生成模型依靠预测模型来优化分子的特定性质。这些预测模型的准确性受到训练数据集的大小和准确性的限制。对于训练数据来自模拟或实验的特性,训练数据可能包含噪音和/或偏见,使模型无法学习真正的结构-特性关系。此外,对于训练数据有限的性质,可用的数据可能不足以将模型约束在目标函数附近。这样一来,考虑生成模型与易出错的预测模型配对时的行为是很重要的。

处理生成性分子发现中易出错的预测模型的最直接的方法是使用贝叶斯优化方法。

与此相反,在有些情况下,故意探索预测模型难以理解的化学空间区域是很有用的。这对于发现新分子比发现具有目标特性的分子更重要的应用来说,可能很有价值。此外,这对主动学习的应用特别有价值。在主动学习的环境中,开发一个生成模型是很有价值的,它故意提出预测不佳的分子,可以通过实验进行测试,并作为训练数据,在额外的训练迭代中改进预测器。

3.4 生成性分子设计的常见应用工作流程

如前所述,在实际的分子发现活动中,有一些使用生成模型的例子。在实际应用中,最直接的方法是在初始数据集上训练生成器和预测器模型,发现一个或一组分子,并选择少量的分子进行实验测试(图3,顶部)。

图3 目前,在实验应用中,生成模型已被用于人工过滤的单程工作流程中。在未来,我们可能会看到生成模型被整合到闭环的、自主的发现管道中。

除了使用生成模型来简单地发现分子外,人们还可以使用从有希望的lead中产生的数据来重新训练预测器和生成器模型,从而”闭环”分子发现的循环(图3,底部)。这种方法对于预测模型在有限的数据集上进行训练的应用很有价值。虽然没有使用生成模型进行分子实验闭环发现的例子,但Chen和Gu最近说明了这种方法对于计算设计具有理想机械性能的材料的价值。在这一应用中,他们通过使用有限元方法(FEM)这种相对便宜的计算方法来测量材料的特性,从而规避了合成材料的需要。虽然这种计算方法往往不如实验方法准确,但它们提供了在模型计算系统上开发闭环生成建模方法的机会,这些方法随后可以转化为实验系统。

实现闭环实验性分子发现所需的一个关键进展是开发能够合成和测试分子的高通量实验平台。为此,已经开发了一些平台,这些平台在其可以进行的合成和测试操作的灵活性方面各不相同。最终,我们的目标是将这些平台与机器学习方法结合起来,产生用于分子发现的自我驱动实验室。这一进展将需要整合(1)能够发现分子的生成模型,(2)能够预测可行的合成途径的逆向合成模型,以及(3)能够灵活地进行合成和测试操作的全自动实验平台。虽然这样的系统还没有实现,但这样的设想在其他地方也有描述,并可能在不久的将来实现。

4 未来的方向

4.1 基准的未来

与机器学习的许多领域一样,生成式建模的发展轨迹历来被该领域的关键基准所左右。现有的一套基准在引导一波日益强大的分子发现生成模型方面起到了关键作用,促进了诸如生成分子的有效性、独特性和多样性等指标的改进。尽管如此,正如其他人所建议的那样,许多最新的生成模型在这些基准中表现非常好,这表明这些基准不再足以评估哪些模型表现最好。因此,有必要开发更有意义的基准,以促进生成性模型的发展,这些模型被设计成更理想地解决真实世界的问题。

与开发这样一套基准相关的挑战之一是,生成性模型的标准很可能因不同的应用而不同。一套理想的基准是包含与各种应用相关的指标,同时也包括与使用生成模型进行分子发现相关的大多数障碍。我们希望这套基准将包括诸如合成可行性、安全和处理、不确定性量化等因素,以及与在实际应用中部署生成模型有关的其他考虑。

4.2 表征法的未来

在过去的几年里,能够从二维分子图和三维点云中学习的生成模型有了许多发展。这些进展很有价值,因为它们使生成模型能够在信息更丰富的表征上进行学习,这些表征包含了更多关于分子基础物理学的信息。大多数二维和三维生成模型是自动回归的,这意味着它们以一种有序的方式生成图形或点云。由于分子在本质上是无序的,在原子之间强加规范排序的模型会给生成模型带来额外的偏见,可能会限制其性能。此外,大多数表征法都是为小分子开发的,不能轻易用于描述大分子或手性分子。最后,利用二维和三维表征的生成模型在训练时比简单的模型计算成本更高,使它们更难扩展到更大的分子和/或更大的数据集。

4.3 最后的想法

在过去的十年里,用于分子发现的深度生成模型已经发展成为一个成熟的领域。生成式建模作为发现能够解决许多全球危机的新型化学物质的自动化方法,具有很大的前景。虽然生成式建模要充分发挥其潜力还需要许多进展,但我们预计目前的挑战将在未来几年得到解决。

参考资料

https://wires.onlinelibrary.wiley.com/doi/full/10.1002/wcms.1608

--------- End ---------

0 人点赞