J. Med. Chem. | 用图形注意机制推进药物发现分子表征的边界

2021-02-04 14:43:53 浏览数 (1)

作者 | 王豫 编辑 | 戴迟迟

今天给大家介绍的是上海科技大学免疫化学研究所蒋华良院士团队在Journal of Medicinal Chemistry上发表了一篇名为“Pushing the Boundaries of Molecular Representation for Drug Discovery with the Graph Attention Mechanism”的文章。寻找具有良好药理、毒理学和药代动力学特性的化学物质对药物发现来说仍然是一个巨大的挑战。深度学习为药物发现领域提供了强大的工具来建立适合不断增长的数据量的预测模型,但这些神经网络学习的内容与人类能够理解的内容之间的差距正在扩大。此外,这种差距可能会引发不信任,限制深度学习在实践中的应用。在此,作者在文章中介绍了一种新的使用图注意力机制来学习药物发现相关数据集的图神经网络结构——Attentive FP来进行分子表示。通过实验证明,Attentive FP模型不仅在各种数据集上达到了最高水准的预测性能,而且它学习到的是可解释的。通过特征可视化表明,Attentive FP通过从特定任务中学习非局部分子内的交互帮助研究人员发现超出人们预期的潜在的化学信息。

一、研究背景

药物化学发现依赖于分子结构的联想推理和模式识别。然而因为易发现的目标越来越少,经验的“药物相似”规则和“特权”化学(子)结构的应用日趋困难。一个分子结构通常由多体相互作用和复杂的电子云组成,这使得构造它们的综合表示不是一个简单的问题。鉴于数据量的不断增加以及化学和生物系统的复杂性,药物化学家迫切需要来自人工智能的辅助设计。

图1. 阿司匹林结构式及其几种分子图模型

图1表示了阿司匹林的几种分子图模型,给定一个目标节点,灰色节点表示在不同的分子表示方案中邻近节点影响目标节点的概率。节点颜色越深,对目标节点进行分段的机会就越大。对于前项神经网络(Neural FP)和图卷积网络(GCN)模型,相邻节点影响目标的概率随着拓扑距离的增加而减小。在化学分子中,拓扑距离较远的原子对也可能具有重要的相互作用,从而影响分子的整体性质。一个理想的分子图表示框架应该能够捕捉分子中甚至远处的原子所包含的信息。近期,Weave和概率神经网络(MPNN)被提出来构建连接分子图中每一对节点的虚拟边,这意味着结点间影响的概率不受距离约束。在该模型下,所有原子可以相互影响而不受距离的限制。但对于分子图来说,其固有结构受物理规律的支配,节点间的信息流动也受到约束。拓扑上相邻的节点有更大的机会相互影响,在某些情况下,它们可以形成官能团。由于Weave和MPNN的平均效果,它们往往使所有结点间的影响表现得更微弱。

在此,作者提出了一种新的基于图形的神经网络结构——Attentive FP图来表示分子。Attentive FP不仅通过将节点信息从附近的节点传播到更远处的节点来表征原子局部环境,而且还通过应用图注意机制来考虑分子内的非局部效应。这样得到的Attentive FP在充分考虑分子固有结构的前提下,能够有效地捕获任何节点之间隐藏的关键链接。即使没有使用预先提供的分子构象数据,Attentive FP图显示出的预测能力可以与最近报道的基于地形图的qm9数据集表示相媲美。此外,学习到的图连接和节点特征的可视化很好地符合人们对化学分子结构的直觉,也揭示了Attentive FP图确实提取了非局部的分子内相互作用。

二、模型与方法

2.1 数据集

为了便于比较,作者用先前基准过的数据集训练和测试了Attentive FP模型。第一次收集的数据集是由Duvenaud et al 和Kearnes et al 等人进行基准测试的,其中包括三个不同的数据集,涵盖了溶解度、疟疾生物活性和光电效率等数据。第二次收集的数据集由Wu等在Molecule Net中进行的基准测试。作者测试了所有的收集到的除了PDB绑定数据集意外的物理化学、生物物理学和生理学数据集。第三组数据集来自量子力学计算,作者在大型的stqm9数据集上测试了Attentive FP模型。

表1. 药物发现相关数据集概览

2.2 Attentive FP 模型架构

Attentive FP模型引入了一个注意机制以提取分子水平上的非局部效应。为了实现更好的预测,注意机制考虑了一种集中于输入信息中最相关的部分的方法。

图2. Attentive FP模型架构概览

图2总结了Attentive FP网络的架构。首先,假设用RDkit软件提取了一个分子,其键合和原子的初值特征按照表1进行编码。因为这个模型是以原子为中心的,每个原子都有自己的相邻特征,这些特征将相邻的原子和连接键连接在一起。值得注意的是,原子特征的向量和邻近的原子特征的向量不具有相同的长度;因此,通过线性变换和非线性激活来统一矢量长度。这个过程实际上形成了一个完全连接的层,并为每个原子及其相邻原子生成初始状态向量。

表2. 原子特征与键合特征的初值

其次,为了从本地信息包括更多的信息,这些初始态向量以被进一步嵌入堆叠的注意层的方式来嵌入节点,这容许了原子使用一种注意力机制逐步聚集来自其相邻原子的信息,从而聚焦其邻节点中最相关的信息。在每个嵌入注意层的节点中,该过程为每个原子生成一个新的状态向量。在经过几个堆叠的注意层之后,状态向量包含了更多的邻域信息。

图3. 阿司匹林的原子嵌入堆叠注意层(左)初始节点嵌入过程(右)

然后,将单个原子状态向量组合成一个分子状态向量,我们将整个分子视为连接分子中每个原子的超级虚拟节点并使用相同的原子嵌入注意机制嵌入。该过程在分子嵌入的多层注意层上进行,并生成整个分子的状态向量。

图4. 阿司匹林分子嵌入堆叠注意层

最后,最终状态向量是对分子图的结构信息编码的学习表示,随后是用于预测的任务依赖层。整个网络以端到端的方式进行训练,获得针对特定任务或同时针对多个任务的一组特定网络权值参数。

2.3 性能评估方法

为了评估Attentive FP的预测性能,作者首先在一组由Duvenaud等人作为基准的三组不同数据集上对其进行了测试,这些数据集的分子特性包括溶解度、疟疾生物活性和光电效率。因为这些数据是定量的,作者建立回归模型使用MSE作为评价指标。使用BO搜索每个数据集的超参数以最小化MSE。使用最佳超参数集,作者使用不同的随机种子进行了三次独立运行来训练模型。

三、实验结果

3.1 用Duvenaud等人的基准数据集进行概念实验的证明

表3总结了Attention FP模型和其他模型的预测性能。在尽可能简化分子区分特征的前提下,Attention FP可以使用一种简单的方案来提取分子图中的原子特征和拓扑关系。区分特征可以从先验知识或其他特征推导而来。更重要的是,图注意力机制的引入使我们的模型能够集中于邻近的任务相关信息,此外,借助GRUs和状态更新函数则有助于在迭代过程中过滤掉不相关的信息。总之,Attentive FP架构有助于在这些数据集上达到顶级预测性能。

表3. 三个任务的预测性能

3.2 预测药物发现的不同生物学活性和物理化学性质

物理化学性质测定的水溶解度,溶剂化自由能,和亲脂性极大地影响药物的药代动力学特征。理想的物理化学特性是一种成功药物的前提。Attentive FP在之前所有基准物理化学数据集上都达到了最低的均方根误差,包括水溶性(ESOL)、溶解度自由能(FreeSolv)和亲脂性(Lipop)。

因为生物活性数据描述了化合物对不同靶点的间接作用,而这些靶点是药物发现的关键。所以从这些数据中学习为筛选候选药物提供了一种经济有效的方法。表4还显示了分类模型对生物物理学数据集(MUV, HIV, BACE)的预测性能Attentive FP模型在ROC度量方面也显示出显著的改进。

表4. 药物相关数据集的预测性能

总之,Attentive FP模型在12个药物发现相关数据集中的10个数据集中取得了当前最高水平的表现,这表明它是一个有前景的药物发现问题的分子表征方案。

此外,将量子力学计算与机器学习方法相匹配引起了相当大的兴趣,因为在使用DFT方法时涉及到巨大的计算成本。作者测试了Attentive FP 由Molecule Net基准测试的qm9量子力学数据集。测试结果是相当令人鼓舞,因为Attentive FP的总体表现可与基于几何的模型相媲美,这表明专注FP隐式学习了与三维结构相关的信息。因此,由Attentive FP的分子表征可能提供一个有价值的解决方案,解决许多涉及探索分子的大构象空间的问题。

表5. Attentive FP在qm9数据集的表现

四、特征可视化与可解释性

使用Attentive FP的模型在各种测试中取得了最好的性能。因此,可解释性问题值得探讨。可解释性之所以重要,主要有两个原因:首先,深度建模的“黑箱”特性使得高效地将机器学到的知识(网络连接权重)映射到科学领域知识变得非常困难;其次,深度学习模型可能会发现隐藏在数据之下的有趣模式,这些模式可能与现有的化学观察和直觉相似或不同。

4.1 学习水溶性

首先,为了探索为什么Attentive FPs能够取得比之前使用传统化学描述符作为输入的模型更好的性能,作者比较了自动学习的隐藏特征(“指纹”)和手工制作的化学描述符。具体地说,溶解度预测的学习特征是一个200维的嵌入(向量),其中每个维都有自己的化学含义。在这里,作者计算了每个特征维度与化学描述符之间的皮尔逊相关系数,例如SA(合成可及性)评分或药物相似度。从图5a中可以看出,训练前后的相关分布变化不显著,说明这些化学描述符与水的溶解度相关性较弱。而TPSA(拓扑极性表面积)和LogP(亲脂性)的相关分布经过训练后趋于极值(图5b),说明TPSA和LogP与水溶性高度相关。可以观察到越来越多的已知特征与TPSA呈正相关或与LogP呈高负相关,这符合TPSA正相关、LogP与水溶性负相关的化学直觉。经过注解,与TPSA和LogP关联最多的隐藏特征的皮尔逊值分别为0.95和−0.911。

图5. 在水溶解度预测任务中,将Attentive FP学习特征与手工制作的描述符相结合

4.2 学习隐藏的环境

为了研究原子状态向量在学习过程中是如何演化的,作者通过计算原子状态向量的皮尔逊相关系数得到原子对之间的相似系数,绘制了化合物原子相似矩阵的热图来观察模式的变化。以异菌脲的分子结构为例(图6)在训练之前,相似矩阵热图中的视觉模式显示了不同层次的混乱的相似级别。然而,经过训练后,更高阶的层以特定的顺序显示出明显的模式。放大热度图层2,能够分析出与异菌脲化学直觉相符的官能团组成。这一观察结果表明,Attentive FP确实通过从特定任务中学习而成功地提取了相关信息,而且它也突出了这里所介绍的注意机制在捕获原子间的非局部效应方面的优势。

图6. 异菌脲的原子相似矩阵热度图

4.3 学习芳香性

为了进一步探索Attentive FP如何学习化学结构中的非局部效应,作者构建了一个预测分子中芳香族原子数量的任务,该任务中每个分子只受一个整数的监督。作者从PubChem Bio Assay数据集中总共取样了3945个分子,其中芳香原子为0 - 40个。为了消除任何关于芳香性的先验知识,所有的键特征和所有的原子芳香特征都被排除在分子饱和过程之外。作者还将Attentive FP与GCN和MPNN在同一学习任务上进行了比较。如图7所示,Attentive FP的表现优于GCN和MPNN, RMSE更小,R²值更高。

图7. 不同模型下的芳香原子数预测

更有趣的是,Attentive FP模型精确地将高度的注意力权重分配给芳香族原子,而将低注意力权重分配给非芳香族原子,而且这种分配对于分子的敌对修饰是稳健的。如图8所示,一个小的键或原子变化可以准确地识别破坏共轭双键系统。

图8. 破坏芳香性的化学键或原子变化可被精确识别

这些观察结果表明,在原子水平上的注意力重量确实具有化学意义,在这种情况下可以很容易地解释为芳香性。对于更复杂的问题,注意力的权重也可以作为发现新知识的提示。

五、总结

药物设计的宏伟目标是直接从化学结构中读取性质。然而,在多大程度上以及在多大程度上能够准确地提取信息仍然是一个悬而未决的问题。其他相关的任务,如反应结果和产量预测,反合成分析和合成计划,也可以从更好的分子表征来预测性能中获得重要的好处。利用深度学习方法进行分子表征提供了一个可行的选择,它不仅可以帮助建立分子性质的预测模型,还可以从现有数据中重建知识,甚至形成新的理论来描述化学系统。在这个方向上,仍然需要付出更多的努力,不仅要提高结果模型的预测能力,还要解释模型,而不是简单地接受“黑箱”结果。

在这项工作中,作者提出了一种基于图形神经网络的小分子表征框架——Attentive FP。图注意机制在原子和分子水平上的的应用使得这个新的表示框架能够学习给定化学结构的局部和非局部特性。因此,它可以捕获诸如分子内氢键和芳香体系等微妙的亚结构模式,这使得它对各种不同的分子性质具有出色的学习能力。此外,通过提取隐藏层或注意力权重来逆转AFP模型,提供了对该模型的解释,这将帮助化学家了解快速增长的药物发现数据的数量和复杂性。


代码

https://pubs.acs.org/doi/10.1021/acs.jmedchem.9b00959

Supplementary Table 3

参考文献

Pushing the Boundaries of Molecular Representation for Drug Discovery with the Graph Attention Mechanism

Zhaoping Xiong, Dingyan Wang, Xiaohong Liu, Feisheng Zhong, Xiaozhe Wan, Xutong Li, Zhaojun Li, Xiaomin Luo, Kaixian Chen, Hualiang Jiang, and Mingyue Zheng

Journal of Medicinal Chemistry 2020 63 (16), 8749-8760

DOI: 10.1021/acs.jmedchem.9b00959

0 人点赞