Drug Discov Today｜用于从头药物设计的图神经网络GNN

2021年6月，来自中科院上海药物所的蒋华良、郑明月等人在Drug Discovery Today发表综述，从分子打分、分子生成和优化、合成规划3个方面，介绍了GNN在从头药物设计中的应用，并探讨了该领域的当前挑战和未来方向。

主要信息包括：

GNN在药物分子设计领域被广泛关注。
GNN在分子打分、分子生成和优化以及合成规划中的应用。
GNN在从头药物设计中的当前挑战和未来方向。

以下是全文主要内容。

摘要

从头药物设计的目标是创造具有所需生物活性和药代动力学（PK）特性的新型化学实体。近年来，随着人工智能（AI）技术的发展，数据驱动的方法在该领域迅速普及。其中，图神经网络（GNN）直接对图结构的数据进行运算，受到了广泛的关注。在这篇综述中，我们从分子打分（molecule scoring）、分子生成（molecule generation）和优化、合成规划3个方面介绍了 GNN 在从头药物设计中的应用。此外，还讨论了 GNN 在从头药物设计中的当前挑战和未来方向。

前言

新药研发周期长、费用高且风险大，大约需要花费10-15年，平均超25亿美元的研发经费才能使一个药物上市。在此过程中，1/3的时间和金钱都投在了药物发现的早期阶段。因此，开发有效的自动化技术，从而在广阔而离散的化学空间中快速发现可能的、多样化的候选分子，对制药行业来说很有吸引力。这种从头药物设计方法一般可以分为3个任务：(i)分子生成；(ii)分子打分；(iii)分子优化。此外，如何合成设计的分子也是从头药物设计过程中必须考虑的一个关键问题。因此，本综述将合成规划纳入了自动从头药物设计的工作流程中。

该领域早期的研究致力于产生和评估新的分子，例如基于原子-伸长率，基于片段的组合，和基于分子对接的方法。近年来，随着生物医药数据的积累和计算能力的进步，人工智能这一新兴的计算机技术在药物设计领域发展迅速，并显示出巨大的实际应用潜力。通过人工智能筛选有前景的类药物化合物被《麻省理工学院技术评论》评为 2020 年“全球十大突破性技术”之一。

人工智能是指可以从经验中学习、适应新输入并执行类似人类任务的计算机系统。由机器学习 (ML) 提供支持的 AI 系统可以利用大量数据来挖掘新的见解和模式，而无需依赖人类发现的任何理论或实践知识。因此，它适用于处理药物设计过程中遇到的有大量的可用数据、但规则不太明确的问题。特别是，深度学习作为 ML 的一个分支，在药物设计中显示出异常吸引人的前景，因为它具有从大规模数据中学习特征和结果之间复杂关系的强大能力。在各种深度学习模型中，GNN在药物分子设计领域引起了越来越多的关注，因为由此产生的图形是最直观、最简洁的分子表示方式。

图1 图神经网络(GNN)在从头自动药物设计所有阶段中的应用

化学图论将分子描述为无向图（Undirected Graph），其中节点和边分别对应于原子和化学键。运行在这种分子图上的神经网络都可以看作是一种广义的 GNN。根据不同的任务目标，那些用于分子学习的 GNN 可以进一步归纳为4类，它们在从头药物设计中扮演着不同的角色。

第1类旨在预测整个图的标签，可用于预测各种分子特性。第2类旨在预测节点或边的标签，可用于预测反应和逆合成。第3类旨在学习图的隐式表示，可用于分子的一步生成和优化，而第4类旨在学习图的转换规则，可用于迭代生成和分子的优化以及反应和逆合成的预测。

关于人工智能技术在药物发现中的应用，已有许多优秀的综述。在这里，我们特别关注 GNN 在从头药物设计中的应用，并简要介绍该领域的最新进展和展望（图 1）。

分子打分

分子的打分主要基于对其类药性和药理活性的预测（这是成功药物的2个基本要素）。分子打分方法已经发展了很长时间，在虚拟药物筛选中具有重要作用。然而，在从头药物设计过程中，它不仅可以用于筛选一些具有所需特性的化学实体，还可以限制生成器在化学空间的特定区域进行采样。

基于配体的打分

基于配体的打分不需要任何受体信息。它基于对分子结构-性质之间定量关系的认识，可用于评价类药性和药理活性。

Duvenaud 等人的一项开创性研究首次在该领域引入了 GNN。他们提出了一种图卷积模型，可以直接对图进行操作以对分子进行编码。与圆形指纹（circular fingerprints）一致，该模型中原子特征根据它们的一阶邻居通过相同的局部滤波器（local filter）进行更新（图2a）。通过对所有不同图计算的表示求和，并用单层神经网络替换传统圆形指纹中使用的哈希函数（Hash function），可通过反向传播生成可微指纹（differentiable fingerprints）。结果表明，这些神经图指纹在预测溶解度的任务中获得了比摩根指纹（Morgan fingerprints）更好的结果。

图2 图神经网络的消息传递过程，其中w表示注意力权重，S表示虚拟超级节点。(a) Duvenaud 和 Coley 等人的模型；(b) Weave；(c) enn-s2s；(d) Attentive FP；(e) D-MPNN；及(f) MEGNet

Kearnes等人报道了包括“weave模块”的另一种分子图卷积方法，作为Duvenaud 方法的扩展。除了原子之外，weave 模块还为图中所有边引入了可更新的隐藏状态。此外，当更新一个原子特征时，weave 模块结合了来自所有其他原子而不仅仅是相邻原子及其相应对的信息，这使其能够以增加的计算复杂度为代价在远距离原子之间传输信息（图2b）。尽管weave模型并不优于所有基于指纹的方法，但它提出了一种实用的策略，可以将边缘信息显式地添加到图卷积神经网络中。

Gilmer等人总结了几种现有的图结构数据神经模型之间的共性，并将它们归纳为一种消息传递神经网络 (MPNN)。MPNN 将图卷积操作视为一个消息传递过程，其中一个节点的信息被传递到另一个节点，然后节点特征将被更新。作者还提出了该模型的一种新变体enn-s2s（图2c），它在预测分子的量子力学特性方面获得了当时最先进的结果。

上述三个研究，只将简单的结构属性作为输入特征，这些属性可以直接从分子结构式中获得，如原子类型、键类型和图距离。Coley等人介绍了一种替代的图卷积方法，该方法可以保留连接之外的空间和其他分子信息。首先使用原子贡献方法计算一组分子级属性，并将这些原子级贡献和其他结构属性一起整合到原子的初始表示中。这些原子的表示通过图卷积层中相邻原子传递的消息进行更新，然后聚合成池化层中的分子表示（图 2a）。对几个基准任务的测试，包括水溶性、辛醇溶解度和熔点预测，表明通过添加分子级空间信息显著提高了模型性能。

在分子图中引入虚拟超级节点（有时被称为一个全局状态）用来学习图级。以 MEGNet为例，与所有节点和边相连的全局状态属性以及原子和边属性共同构成了初始图的表示。更新初始图表示，在前2步中，应用来自全局状态和另一部分的信息来更新键和原子的属性。根据来自键、原子和先前全局状态属性的信息更新全局状态属性（图 2f）。值得注意的是，将温度、压力和熵等状态变量作为全局状态输入，Chen 等人开发了一种组合自由能模型，可以预测分子在100和200K时的内能（internal energy），即使这些数据点未包含在训练数据中。

尽管研究人员已经提出了许多用于预测分子性质的深度学习模型，并在许多标准数据集上取得了优异的结果，但神经网络的黑盒性质阻碍了它们的实际应用，因为很难判断这些模型是否学习了预期的训练数据的知识或隐藏变量。改进模型的可解释性，在一定程度上可以解决这个棘手的问题。

为此，Xiong 等人报告了 Attentive FP，一种具有图注意力机制的新 GNN 模型。Attentive FP 计算相邻节点对之间的一系列注意力权重，以根据它们的特征来表示它们之间的交互程度。对于某个原子，从其相邻原子传递的消息必须乘以它们之间的注意力权重，然后才能用于更新其表示（图 2d)。此外，分子级别的注意力机制（attention mechanisms）也是通过引入连接分子所有原子的超级虚拟节点来实现的。通过这些设计，Attentive FP 不仅可以在各种数据集上实现最先进的预测性能，而且更重要的是，还可以解释它从这些数据集中学到的东西。例如，在预测一个分子中芳香原子的数量时，Attention FP 可以根据注意力的权重准确标记芳香原子的位置。除此之外，Tang 等人在他们的 GNN 中引入了自注意力机制，其中原子的注意力权重是根据其隐藏状态计算的。它可用于可视化子结构对分子目标特性的贡献之间的关系。

通过无向边在节点之间传递的消息允许蹒跚行走，这可能会在图形表示中引入噪声。为了克服这个问题，Yang等人介绍了一种称为 D-MPNN 的图卷积，可以将其视为通用 MPNN模型的变体。它们之间最显著的区别是在消息传递阶段发送的消息性质。D-MPNN 使用与定向键相关的信息，而不是与原子相关的信息（图 2e）。在消息传递阶段结束时，传入的键特征被求和并作为相应原子的表示，这些原子将被进一步求和并作为读出阶段整个分子的表示。此外，固定的分子描述符被组合到分子的表示中。D-MPNN 在分子特性预测中的一个有趣案例是以halicin 为代表的新抗生素的发现。

GNNs在预测小分子特性方面的优异性能引起了制药公司的关注。最近，默克和斯坦福联合进行了一项研究，他们在默克的 31 个化学数据集上训练了 ML 模型，这些数据集描述了各种吸收、分布、代谢、排泄和毒性 (ADMET) 分析的结果，并将随机森林的结果与其 GNN 的结果进行了比较。研究表明，GNN 模型在这些数据集上的性能明显优于基于原子对分子指纹的随机森林模型。此外，根据从文献中收集的外部数据和模型训练后生成的后续数据测试了模型。结果表明，GNN 模型比随机森林模型具有更好的泛化能力，而且多任务风格的训练可以进一步提高GNN 模型的性能。

基于受体的打分

基于受体的打分旨在根据有关受体蛋白的信息预测药物-靶标相互作用 (DTI) 。目前，深度神经网络（DNN）中受体蛋白输入信息主要有3种形式：(i) 蛋白质序列（图3a）；(ii) 蛋白质袋的结构（图3b）；(iii) 蛋白质-配体复合物的结构（图3c）。

图3 深度神经网络中蛋白质信息输入的3种形式。(a)蛋白质序列; (b)蛋白质袋的结构；和(c)蛋白-配体复合物的结构。缩写：CNN，卷积神经网络；GNN，图神经网络；RNN，循环神经网络。

GNN可以自动学习分子的表示来预测各种性质。然而，学习的表示仍然基于输入的化学结构。因此，以往定量构效关系研究中的问题，如非加和性效应（nonadditive effects ）和活性悬崖（activity cliffs）的预测，可能仍然是GNN模型面临的挑战。此外，作为一种数据驱动的方法，实现其全部潜力的另一个障碍是缺乏高质量的训练数据集。数据集的体量、偏差促使设计大型且无偏数据集成为迫切需要。大型制药公司积累了大量的数据，特别是难从文献中获得阴性数据，这对于模型学习来说却是不可或缺的。然而，在大多数情况下，制药公司出于数据保密而不愿共享数据，因此联邦学习或能成为一种解决方案。

分子生成和优化

分子的生成和优化是自动药物从头设计的核心。生成模型的方法通常分为2类：非自回归方式（图4a）和自回归方式（图4b）。非自回归生成模型通过同时生成图的边特征矩阵和节点特征矩阵来构建分子图。非自回归生成模型包括变分自编码器（VAE）、生成对抗网络（GANs）和基于可逆流的模型。自回归生成模型通过迭代细化图的中间结构来构建图。自回归生成模型的典型代表是RNN。这些不同类型的生成模型也可以组合使用，如自回归VAE和自回归流模型。此外，分子作为一种特殊的图结构数据，也可以通过虚拟化学反应生成（图4c）。

目前，深度生成模型的性能通常用以下指标进行评估:（i）有效性，即生成的图形对应于有效分子的百分比；（ii）新颖性，即生成的有效分子不存在于训练集中的百分比；（iii）唯一性，所有生成分子中唯一有效分子所占百分比。

图4 3种生成分子图方法的示意图。(a)非自回归；(b)自回归；(c)虚拟化学反应

目前，生成符合化学规律的新型分子的方法已经比较成熟。许多生成模型能够针对 ZINC 数据集实现几乎 100% 的有效性和新颖性。然而，对于从头在药物设计中，仅设计独特且不违反价态规则的分子是不够的。生成的分子应该具有合适的性质，这需要通过实验来证明。实验结果也可以反馈给生成模型，最终形成循环。然而，分子合成的困难限制了这一过程的实施。目前，通过虚拟筛选或高通量筛选对库存化合物进行筛选仍是药物发现的主流方法。提高生成分子的可合成性应该是下一阶段生成模型研究的最重要目标之一。

我们认为生成模型和综合规划模型的结合将是一个有价值的研究方向。此外，生成模型的新评估指标也值得探索。目前，评估深度生成模型的常用指标只有有效性、新颖性和唯一性。诚然，这3个指标可以直观地反映模型探索化学空间的效率以及模型的一些潜在问题，例如“模型崩溃（mode collapse）”。但是，它们不能反映模型生成分子的质量。最近，Bush等人提出了“图灵测试（Turing test）”，将算法生成的分子与药物化学家生成的分子进行比较，是对生成模型创建的分子进行评估的积极尝试。

合成规划

计算机辅助合成计划的目标是帮助化学家决定如何合成小分子化合物。该领域的两个关键问题是化学反应结果的预测和逆合成路线的规划。早期的工作主要基于反应规则或量子化学计算。反应规则由人类专家手动编码或由反应数据库自动生成，其主要局限性是，它们无法在没有可用模板的情况下，预测新的化学反应。而基于量子化学计算的方法，由于耗费大量的时间和金钱，阻碍了它的大规模应用。近年来，数据驱动的方法吸引了越来越多的研究兴趣。

表1 在USPTO和USPTO-50k数据集上进行相应测试的反应和逆合成预测模型总结

仅仅过去3年，得益于GNNs的应用，标准USPTO-50K数据集上逆反应预测的准确率从37.3%大幅提升到70.4%（表1）。虽然进展迅速，但逆合成预测的研究仍有很长的路要走。与预测化学反应产物领域现有的一些深度学习模型足以匹配人类专家不同，目前最先进的逆合成预测模型离独立解决实际问题还有一段距离。这些深度学习模型主要是为单步逆合成预测而开发的，这比规划一个完整的合成路线要简单得多。几种策略，例如蒙特卡罗树搜索、深度优先证明数搜索、强化学习、超图探索和多束状搜索，已被用于将单步逆合成模型扩展到完整的路线规划。然而，一种化合物可能的合成路线众多，很难判断某条逆向合成路线是否合理。因此，缺乏可靠的标准来评估和比较这些策略的有效性。未来应着力推动逆合成预测研究从一步反应发展到规划整个合成路线。

结语和展望

从头开始自动设计新药是所有药物研究人员的梦想。近年来，在以 GNN 为代表的深度学习技术的辅助下，与该目标相关的许多方面都取得了显著进展。但是，也有一些明显的问题需要解决。例如，某些基准数据集存在严重偏差，可能导致深度学习模型在相应任务上的性能被严重高估；生成模型产生的分子难以合成，因此其性质缺乏实验验证；逆合成预测的研究主要局限于单步逆合成预测。

此外，作为最流行的处理化学分子数据的深度学习模型，GNN 也有明显的问题，例如“过度平滑（oversmoothing）”。当堆叠过多的多层时，图中不同节点的特征变得难以区分，严重损害模型的性能。鉴于此限制，当前大多数GNN的深度不超过4层。但是随着模型深度的增加，模型的表示能力也会增加。超深神经网络的有效性已在计算机视觉领域得到证明。当前最先进的CNN通常 > 100 层。最近，Li等人构建了一个 56 层 GNN，将点云语义分割（point cloud semantic segmentation）任务中的最新技术提高了 3.7%。他们的工作证明了stacking GNN与CNN一样深的可能性以及超深GNN的优势。然而，他们用来构建如此深的 GNN 的一个关键策略是动态改变图中的边，这不适用于具有固定边的图，例如分子。因此，需要进一步探索为分子学习构建更深层次GNN的方法。

参考资料

Xiong J, Xiong Z, Chen K, et al. Graph neural networks for automated de novo drug design. Drug Discovery Today, 2021, 26(6): 1382-93. https://doi.org/10.1016/j.drudis.2021.02.011.

----------- End -----------

卷积神经网络神经网络深度学习

0 人点赞