2022年7月4日,加拿大布鲁克大学Yifeng Li团队在Frontiers in Pharmacology期刊上发表一篇题为《Multi-Objective Drug Design Based on Graph-Fragment Molecular Representation and Deep Evolutionary Learning》的论文。论文将药物设计建模为一个多目标优化问题,将基于片段的连接树变分自编码器这一深度生成模型融入深度进化学习框架中,取得了良好的实验结果。
主要内容整理如下。
1 摘要
药物发现是一个具有挑战性的过程,需要探索巨大的分子空间,并恰当地考虑许多药理特性。在各种药物设计方案中,基于片段的 (fragment-based) 药物设计是限制搜索空间和更好地利用生物活性化合物的有效方法。受对给定的蛋白靶标进行基于片段的药物搜索研究和本领域出现的人工智能方法的启发,本文从两方面推进了计算药物设计:
1. 将基于图片段的深度生成模型和一个深度进化学习过程相结合用于大规模的多目标分子优化(multi-objective molecular optimization);
2. 将蛋白-配体结合亲和力(protein-ligand binding affinity)分数和其他需要的物理化学性质一起作为优化目标(即多目标)。
实验表明,所提出的方法可以生成具有更好的性质、更高结合亲和力的新分子。
2 方法
本方法的思想是将基于图片段的深度生成模型——连接树变分自编码器(junction tree variational autoencoder, JTVAE),整合到深度进化学习(deep evolutionary learning, DEL)框架中去,这样JTVAE为多目标进化算法(multi-objective evolutionary, MOEA)提供了一个潜在的表示空间用于搜索,同时每一代MOEA生成的精英样本被用来改进JTVAE的连续性学习。
蛋白质-配体结合亲和力分数(用BAS表示)、合成可及性分数(synthetic accessibility score, SAS)和分子的水-辛醇分配系数(water-octanol partition coefficient, logP)被用作优化中的三个目标。
本文提出的模型框架如图1所示,以下详细描述DEL框架、两个深度生成模型(deep generative models, DGM)——FragVAE(用作基准方法)和JTVAE。
图1 DEL框架的流程及其与VAE的交互图示
2.1 深度进化学习框架DEL
DEL框架通过建立数据-模型协同进化范式,将多目标进化计算与分子优化的深度生成模型结合起来。具体来说,DEL框架包括以下六个部分:
1. 对于第一代进化,深度生成模型DGM(通常是VAE)在训练数据上进行参数化和预训练,并从原始训练数据中采样第一代种群(population);然而连续世代的种群样本是DGM生成的。
2. 在编码器的帮助下,样本被变换为隐向量。同时,对样本进行处理以预测分子属性,并进行多目标排序方法(例如,non-dominated ranking)和拥挤距离(crowding distance)计算。
3. 根据种群样本的帕累托秩(Pareto ranks)和拥挤距离,将进化算子(evolutionary operations)应用于种群样本的隐表示,模拟选择高适应度样本的进化过程,并运用包含“交叉(crossover)”和“变异(mutation)”的进化算子来进化出更好的分子。
4. 进化的隐表示由解码器解码以生成新的分子,然后使用RDKit在有效性(validity)、新颖性(novelty)和唯一性(uniqueness)方面对其进行评估。消除无效和重复个体以形成新的样本,构建新的种群。
5. 每一代的新种群由前一代种群和步骤4中新生成的数据中的高质量有效样本构建而成,并可用于微调(fine-tune)DGM。
6. 根据需要,将步骤(2-5)重复多次,以构成最终种群。
基于non-dominated ranking结果选择用于微调VAE模型的高质量样本,该结果强调了在SAS、logP和BAS方面具有最有价值特性的分子。当然,本文的方法还将蛋白质-配体结合亲和力分数和其他属性一起考虑,也就是说,具有较小SAS、logP和BAS的生成分子在进化计算过程中被优先排序和利用。本文使用RDKit计算SAS和logP,使用QuickVina计算BAS。
2.2 深度生成模型DGM
本研究采用了变分自编码器VAE的两种方法(FragVAE和JTVAE)作为深度进化学习框架DEL中的深度生成模型DGM。就结构而言,VAE可被视为自编码器(autoencoder, AE)架构的变体,该架构包含一个编码器
和一个解码器
,使用无监督学习的方式重构输入以进行优化模型参数。VAE使用深度神经网络参数化编码器
(推断部分)和解码器
(生成部分)。基于此,VAE的loss形式化如下:
公式的第一项是重构损失,第二项使用KL散度(Kullback-Leibler (KL) divergence)的正则化项,使后验分布
逼近先验分布
。实践中,先验分布
常常被假设为一个标准的多元高斯分布
。
2.2.1 FragVAE
FragVAE在DEL框架中作为DGM的一个实现,用于基于SMILES片段的药物设计。在切割过程中,给定一个SMILES字符串,从左到右扫描原子,每当遇到符合BRICS规则的可断键时,就会提取一个片段。重复此过程,直到剩余部分无法进一步切割。图2显示了将一个SMILES字符串切割为片段。为了重建一个分子,可以从叶子到根,从右到左重新组装片段。
图2 FDA批准的小分子药物Nafcillin(一种青霉素衍生物抗生素,DrugBank访问号DB00607)的片段切割示例,通过在可断裂的键上产生片段,演示了基于BRICS算法的切割过程。在该示例中,SMILES表示为CCOC1C2CCCC2C1C1C(=O)NC1C(=0)N2C1C1C(C)(C)C2C(=)O,并被分成片段*OCC、*NC(=O)c1c(*)CCC2CCC12和*c1c(=O)N2C1SC(C)(C)C2C(O)O。
2.2.2 JTVAE
尽管近年来用于分子建模的基于SMILES的模型激增,但它仍然面临两个关键限制。
1. SMILES语法对小的更改或错误不具有鲁棒性,这可能导致生成无效的或完全不同的结构。
2. SMILES的非结构化性质意味着两个结构相似的分子可以具有完全不同的SMILES表示。
这些缺点导致所生成的分子缺乏多样性和有效性。因此,基于图的深度生成模型作为一种替代策略受到关注,其允许搜索分子及其片段的拓扑结构。它涉及一种更直观的方法,根据分子的路易斯(Lewis)结构将其表示为一个图。而许多分子图模型,如图神经网络(GNN)、图卷积网络(GCN)、消息传递神经网络(MPNN)和许多其他方法已经被探索,并在分子性质预测任务中显示出优异的性能,从而为基于图的分子生成奠定了基础。
作为最具代表性的基于VAE的图生成模型之一,JTVAE采用了逐子图操作模式,而不是逐原子模式。图3使用一个FDA批准的药物作为示例展示了图片段生成过程。
图3 JTVAE中的图片段说明,遵循逐子图(subgraph-by-subgraph)策略,表示FDA批准的小分子药物Chlorprothixene(一种thioxanthene抗精神病药,DrugBank访问号DB01239)的树分解过程。(A)中分子的簇被识别为子结构,并表示为(B)连接树中的节点。
2.3 蛋白-配体结合亲和力计算
实现可靠和合适的对接分数计算和导出模块对于DEL进行分子优化至关重要。在这方面,作者采用了高效对接工具Quick Vina(QVina),这是著名的AutoDock Vina工具的修订版本。
3 实验
3.1 数据
实验使用两个数据集:
1. ZINC数据集;
2. ZINC数据集的变体数据集,增加了DrugBank数据库中的分子,称为ZINC DrugBank。
两个数据集中随机选择了部分分子进行可视化,见图4。两个数据集均经过三步处理:
1. 对于FragVAE,按照BRICS算法将分子切分为SMILES片段,对于JTVAE,对数据进行子图枚举和树分解(tree decomposition);
2. 使用RDKit和蛋白质-配体结合分数计算模块计算分子性质(包括SAS、logP和BAS);
3. 去除重复的分子以及具有少于2个片段的分子。
图4 从ZINC(A)和DrugBank(B)中随机选择的分子的2D图可视化。使用RDKit进行可视化。
3.2 超参数设置
实验中,作者使用相同的进化学习超参数来评估DEL框架,但对FragVAE和JTVAE使用不同的超参数调整来最大化其性能表现。表1列出了关键超参数的设置。
表1 DEL过程和DGMs中的超参数设置
3.3 FragVAE与JTVAE的比较
两个数据集和两种基础深度生成模型(FragVAE和TVAE)组合为4个实验:
1. 在ZINC数据集上训练,进行FragVAE DEL实验;
2. 在ZINC DrugBank数据集上训练,进行FragVAE DEL实验;
3. 在ZINC数据集上训练,进行JTVAE DEL实验;
4. 在ZINC DrugBank数据集上训练,进行JTVAE DEL实验。
表2报告了基于这两种深度生成模型的框架性能,这表明JTVAE生成了的分子全部有效,并且分别基于FragVAE和JTVAE产生的最终种群中的几乎所有样本都是新的。此外,两种方法都可以保持高度多样的种群。
表2 在两个数据集上,分别使用FragVAE DEL和JTVAE DEL对来自最终(第10代)种群的性能表现
其次,根据样本在最后一代种群中的属性分布对本文的方法进行评估(见图5),作者分别计算并在图例中显示了从基于FragVAE和JTVAE的DEL框架的最终种群到原始ZINC数据的1-Wasserstein距离。这表明,两种方法都成功地通过世代改进了性能。虽然两种方法在结合亲和力分数上略有差异,但JTVAE在logP上表现出优异的性能,而FragVAE对SAS的改善更大。
图5 在(A)SAS、(B)logP和(C)BAS上的属性分布情况,DEL的最终种群(第10代)和原始ZINC数据集之间的1-Wasserstein距离。
3.4 虚拟筛选
最终种群的第一个帕累托前沿(Pareto front)上生成的样本被视为高秩(high-rank)分子。在实验中将种群规模设置为20000时,DEL通常会产生20-30个帕累托等级。本节仅研究第一个前沿。作者采用以下三重标准来识别第一前沿的高质量新样本:
1. SAS ≤ 3
2. -0.4 ≤ log P ≤ 5.6
3. BAS ≤ -6.6在图6中,可以观察到BAS位于−6.6和−8.6之间,从而设置了从第一前沿过滤高质量新分子的上限(本框架的目标之一是最小化BAS)。
分别从基于ZINC和ZINC DrugBank数据上训练的FragVAE DEL中检索到89和99个分子;图7、8所示的ZINC和ZINC DrugBank数据集上预测的结果,对JTVAE DEL的94和107个分子进行了追踪。
图6 PDB中10种唯一的CA9-配体的2D图可视化情况
图7 在ZINC数据上分别使用(A)FragVAE和(B)JTVAE生成的最终(第10)种群的高质量新样本的2D图可视化。由于空间限制,每种方法仅显示16个分子。
图8 在ZINC DrugBank数据上分别使用(A)FragVAE和(B)JTVAE生成的最终(第10)种群的高质量新样本的2D图可视化。由于空间限制,每种方法仅显示16个分子。
作为案例研究,作者通过BAS对高质量分子进行了排名,并选择了两个得分最高的新分子,一个是使用FragVAE DEL获得的,另一个是从JTVAE DEL获得的。图9显示了蛋白质-配体复合物。与图6中的现有配体相比,两种分子都没有违反标准,并且在所有三个目标(SAS、logP和BAS)中都表现优异。
图9 结合在CA9蛋白表面的两个新分子的对接可视化。在最终群体的高质量样本中,这两种分子的BAS排名最高。(A)展示了分子COc1ccc (C2CCN(C(=O)C3COc4ccc(F)cc4C3)C2)cc1 与CA9蛋白的结合位点结合。它由FragVAE DEL生成,结合亲和力分数为-9.3(SAS:2.892,logP:3.402)。(B)展示了分子O=C1Nc2cc(C(=O)NCCc3nnc(-c4ccccc4)o3)ccc2C1=O 与CA9结合,它由JTVAE DEL生成,结合亲和力分数为-8.1(SAS:2.562,logP:1.844)。
4 结论
药物发现可以建模为一个在广阔搜索空间上的多目标优化问题。本研究提出将基于图片段的深度生成模型应用于深度进化学习过程,并将蛋白质-配体结合亲和力分数作为目标之一。
实验表明,与之前在深度进化学习框架中使用的基于SMILES片段的深度生成模型相比,本方法能够生成满足筛选标准的新样本数量方面具有更好质量的新分子。
参考资料
Mukaidaisi M, Vu A, Grantham K, Tchagang A, Li Y. Multi-Objective Drug Design Based on Graph-Fragment Molecular Representation and Deep Evolutionary Learning. Front Pharmacol. 2022 Jul 4;13:920747. doi: 10.3389/fphar.2022.920747. PMID: 35860028; PMCID: PMC9291509.
--------- End ---------