BioRxiv|盘古药物模型:像人类一样学习分子

2022-11-16 15:50:15 浏览数 (1)

2022年4月,华为健康智能实验室的乔楠及上海药物所的蒋华良、郑明月等人在BioRxiv发表文章,介绍了一个名为PanGu Drug Model的用于多个药物发现任务的新的深度学习架构。

近期,GPT-3和盘古α等大规模预训练模型在许多下游任务中表现出惊人的性能。一个强大的分子预训练模型可以为研究人员节省大量的时间。本文开发了一个新的深度学习架构,称为盘古药物模型(PanGu Drug Model)。它使用图到序列的不对称条件变异自动编码器,可以从两种表征中适当地描述分子,提高下游药物发现任务的性能。

在用17亿个小分子进行预训练后,本文提出的模型在20个药物发现任务中取得了最先进的结果,这些任务包括分子性质预测(预测ADMET性质、化合物-靶点相互作用、药物-药物相互作用和化学反应产率)、分子生成和分子优化。

盘古分子生成器生成了一个新的药物筛选库,其中有1亿个类药小分子,其新颖度为99.68%,它可以有效地生成与给定分布具有相似理化性质的新化合物,这个库可以用来补充现有的化合物数据库。此外,盘古分子优化器可以优化起始分子的化学结构,改善感兴趣的分子特性。

一个由盘古药物模型实现的自动多目标优化网络应用程序见

http://www.pangu-drug.com/

简介

药物发现的核心是通过重复药物设计-筛选-优化的循环,找到针对靶点的有效化合物,同时保证安全性。除了最近报道的成功的AIDD研究外,还有一系列的CADD方法,如基于结构和配体的药物虚拟筛选来识别hit,以及定量结构-活性关系(QSAR)来预测分子特性。然而,它们中的大多数只有助于改善药物研发的一个步骤,仍然缺乏一个能够赋能药物发现全过程的统一模型。

在分子表征方面,传统上,扩展连接性指纹(ECFP)是为分子表征、相似性搜索和结构-活性建模而设计的圆形拓扑指纹,在各种药物研发应用中一直很受欢迎。然而,它有若干缺点:仅由0或1组成,不能连续描述分子特征;由于位碰撞的存在,有时会用相同的位特征表示不同的结构;它的固定计算规则使其无法在特定的训练数据上进行适应性更新。

本文建立了一个新的预训练的基于条件变异自动编码器(cVAE)的模型,能够准确地表示、压缩和重建分子的化学结构。

与经典的自动编码器不同,本文开发了一种新型的图到序列(graph2seq)非对称结构来实现上述目标,并使用17亿个化学结构对其进行预训练,输入的是化合物的二维无向循环图,输出的是相应的公式字符串。这里的程序是这样的:人类阅读化学结构的图像,并写下相应的化学公式的文字,因此在重复数十亿次之后,盘古可以学习到化学结构和公式串之间类似人类的认知转换。

图1 用于人工智能药物筛选的PanGu

PanGu训练和应用于各种AI药物筛选任务的过程示意图。上图是PanGu的条件变异自动编码器结构,用17亿个小分子的化学结构进行预训练。下图为人工智能药物筛选流程图,由化合物-蛋白质相互作用预测、分子特性预测、类药优化和文库生成等人工智能任务组成,并显示了从初始分子数据库到hit候选文库、类lead库和最终筛选输出文库的分子筛选过程。箭头表示PanGu 指纹和PanGu解码器赋予相应的任务。

因此,本文把这种建模思路称为分子结构制定转换(Molecular Structure Formulating Transformation, MSFT)。与MSFT相比,其他类型的输入和输出有以下缺点:1) 序列输入不能学习原子间连接的分子信息;2) 图形输出模型需要计算生成图形的重建损失。图的同构性问题可以通过图的匹配来解决,但是需要昂贵的计算。

本文用预训练的PanGu完成了总共20个任务,涵盖了药物筛选过程的所有步骤,并在16种分子性质预测(预测化合物与靶点的相互作用,吸收、分布、代谢、排泄和毒性(ADMET)得分,药物与药物的相互作用(DDI)和化学反应产率)、分子生成、约束优化等方面显示了最先进的性能。

此外,PanGu分子生成器有效地产生了具有类似于给定分布的生理化学特性的新型化合物。使用它,一个由1亿个类似药物的化合物组成的新型药物库被自动生成,其新颖性为99.68%。而且,PanGu分子优化器可以优化起始分子的化学结构,改善感兴趣的分子特性。此外,还实现了自动的多目标优化。

结果和讨论

本文设计并训练了PanGu,利用数十亿的化合物来学习分子表征和重建。此外,通过使用预先训练的模型,本文进行了7个实验,共20个任务,几乎涵盖了药物筛选场景的所有方面(图1)。

分子特性预测

本文在MoleculeNet的11个分子特性预测任务中对PanGu进行了全面测试。这里,微调的PanGu和PanGu 指纹(PanGu Fingerprint)都得到了评估。

结果显示,微调后的PanGu在所有预测任务中的表现都优于现有的深度学习模型,在性能上有更好的平均水平或更低的标准差(表1)。

与最近发表的预训练模型GROVER相比,PanGu在分类任务中获得了约0.8%的平均精度提升,而回归任务的误差(均方根误差(RMSE)或平均绝对误差(MAE))则下降了约4.9%。

表1 分子特性预测结果

对于PanGu指纹来说,它在所有任务上的表现都优于ECFP,分类精度平均提高了约8.0%,回归误差平均减少了约37.2%。令人惊讶的是,PanGu指纹在7个任务(BACE, BBBP, Tox21, ToxCast, FreeSolv, ESOL和QM7)中获得了比几个深度学习模型更好的结果。在BACE和ESOL的任务中,PanGu指纹甚至超过了GROVER,排名第二,仅次于微调的PanGu。

值得注意的是,与微调策略相比,使用PanGu指纹进行预测可以大大减少计算开销。

此外,作者认为与其他基于VAE的模型相比,PanGu指纹的另一个优点是设计了分层潜伏空间(见方法中PanGu的图到序列结构部分,以及补充资料中的分层潜伏空间的消融研究),它可以描述不同半径范围内的分子,并且在化学上可以解释。

化合物-蛋白质相互作用的预测

本文在之前的三个基准数据集(人类数据集、elegans数据集和BindingDB数据集)上对PanGu进行了评估。

一致的是,人类数据集、elegans数据集和BindingDB数据集(表2、表3和表4)中,PanGu 指纹在ROC-AUC、精确度、召回率和PRC方面均排名第一,超过了排名第二的TransformerCPI。这一结果表明,除了在预测分子特性方面有良好的表现外,PanGu 指纹与其他表征相结合时也能提供有效的信息。

表2 人类数据集上的化合物-蛋白质相互作用预测结果

表3 elegans数据集上的化合物-蛋白相互作用预测结果

表4 BindingDB数据集上的化合物-蛋白相互作用预测结果

大规模的生成性数据库

尽管许多现有的公共数据库(如ZINC20、ChEMBL等)被普遍使用,但它们只覆盖了整个化学空间的一小部分。

为了用新的化学结构来补充现有的药物数据库,本文设计了一个大规模的分子生成任务,目的是生成1亿个分子,并用3个统计测量指标(有效性、独特性和新颖性)来评估所生成的分子。在这里,任何在ZINC20、DrugSpaceX和UniChem数据库中出现的生成分子都不被认为是新颖的。

结果表明,PanGu达到了近100%的有效性(1亿个分子中只有1198个是无效的),99.95%的独特性和99.68%的新颖性(表5)。

表5 大规模的分子生成结果

考虑到这些数据库的庞大规模,本文从每个数据库中随机抽取了10万个样本进行化学性质分析,比较了生成的分子与先前集合之间的化学性质分布(图2)。有趣的是,生成的分子显示出与先验集相似的模式。t-Distributed Stochastic Neighbor Embedding(t-SNE)的结果(图2h)也表明,PanGu可以在一个给定的化学空间内很好地生成分子,但仍然具有很高的新颖性。这表明PanGu具有良好的探索能力,能够在特定的化学空间内进行搜索,而不是简单地记住训练数据。

图2 PanGu生成的分子的化学性质与先前和现有公共数据集的比较分析

一般来说,基于序列的生成模型有时会因为语法错误而遇到有效性低的问题,而基于图的生成模型则被认为具有较高的复杂性,难以训练。PanGu利用自我参照嵌入字符串(Self-Referencing Embedded Strings, SELFIES),提供了一种简单可靠的方法。大规模生成的结果表明,只要指定一个所需分子的分布,该模型就能很好地探索和生成类似但新颖的分子。这使得有可能构建一个大规模的深度学习生成性类药物分子数据库。

受限分子优化

药物筛选过程中的候选分子可能对感兴趣的靶点有活性,但可能在某些分子特性上不能满足需要。因此,利用PanGu,本文对hit的候选分子进行了修改,以进一步改善其特定性质,同时保持与原始分子的化学相似性。

许多深度学习模型将这项任务视为机器翻译任务,将SMILES的字符串从一个翻译成另一个具有优化性质的字符串。对于PanGu来说,可以合理地假设包含分子结构信息的潜在空间z和控制分子特性的条件向量c(见方法部分的PanGu的图到序列结构)。通过修改条件向量c中包含的条件变量,可以直接实现对分子的可量化和平滑优化,以实现单一或多个目标。

结果显示在表6中。当使用与初始分子相似度的四个不同阈值δ时,PanGu都比JT-VAE取得了更高的目标性质改进。

表6 惩罚性logP的受限分子优化结果

本文选择了四个有代表性的案例来说明,其中包括两个与起始分子相似度高的案例和另外两个目标特性改善程度高的案例(图3)。

图3 通过PanGu优化的分子的惩罚性对数值的案例

左边表示起始分子,右边表示经PanGu优化的分子,每个分子下面都有相应的惩罚性logP分数。

本文发现,PanGu似乎是一个有效的分子优化工具,只需控制条件向量。与基线相比,PanGu在保证优化成功率的同时,大大改善了分子的目标性质,但平均相似度只略有下降。

结论

对于存在大量化学结构而只有少数被良好注释的情况,预训练模型可以成为连接未标记化学结构和已标记化学结构的中介,通过压缩、表示和重建分子结构,使其能够方便地应用于药物发现下游任务。

本文PanGu的预训练数据集是最大的,涵盖了多个公共数据源。其建模思想--MSFT由cVAE架构实现,将小分子的图转化为相应的公式串,避免了graph2graph模型中存在的图生成困难,在训练中可以比seq2seq模型提供更多信息。

此外,分层潜在空间的设计进一步提高了PanGu在微调和指纹识别方面的表达能力。PanGu的新型网络结构易于训练,实现了只更新一个backbone,但对药物发现任务的所有步骤都有好处的可能性。

除了分子特性预测部分,PanGu的新化学空间发现和自动生成功能可以给药物研发人员带来新的灵感和更多有效实验的可能性。作者认为,PanGu将成为其他新的预训练模型的立足点,能够有效地促进人工智能药物研发的发展,并最终帮助加快药物发现和提高成功率。

参考资料

PanGu Drug Model: Learn a Molecule Like a Human

Xinyuan Lin, Chi Xu, Zhaoping Xiong, Xinfeng Zhang, Ningxi Ni, Bolin Ni, Jianlong Chang, Ruiqing Pan, Zidong Wang, Fan Yu, Qi Tian, Hualiang Jiang, Mingyue Zheng, Nan Qiao

bioRxiv 2022.03.31.485886; doi: https://doi.org/10.1101/2022.03.31.485886

--------- End ---------

0 人点赞