2022年6月2日,来自美国国家转化科学促进中心的Hongmao Sun与Yuhong Wang等人在JCIM上发表文章,作者描述了一种新的策略,即逆向药物设计(RDD),从头开始设计新的小分子药物,满足多个预定义的目标。结果表明,RDD具有显著改善当前药物发现过程的潜力。
摘要
更快、更经济地为更多患者提供更多治疗药物是药物研究者的终极目标。人工智能(AI)的出现和快速发展,与药物发现中的其他强大计算方法相结合,使这一目标比以往任何时候都更加现实。作者描述了一种新的策略,即逆向药物设计(RDD),从头开始设计新的小分子药物,满足多个预定义的目标,包括目标生物活性、最佳的物理化学和ADMET特性。
在该策略中,分子结构由基于原子分型的分子描述符系统optATP表示,该系统进一步从主成分分析转换到载荷向量空间。使用optATP和浅层机器学习方法对目标特性的实验数据进行传统预测模型的训练,然后利用Monte Carlo抽样算法在具有目标特性的载荷矢量空间中寻找解。最后,采用一个深度学习模型对解中的分子结构进行解码。为了测试该算法的可行性,作者考察RDD是否能从同时优化了五种不同ADMET性质的随机数中生成新的激酶抑制剂。生成的有效结构与可获得的4314个激酶抑制剂之间的最佳Tanimoto相似性得分<0.50,表明生成的化合物具有高度的新颖性。
从满足所有6个目标性质的3040个结构中,选择20个用于合成和实验测试对97种代表性激酶的抑制活性和ADMET性质。分别有15个和8个化合物被确定为符合条件与非常符合条件。6种强激酶抑制剂中的5种具有优异的实验ADMET性质。本文的结果表明,RDD具有显著改善当前药物发现过程的潜力。
前言
一个成功的药物分子通常有两个共同的特征:1.它以最佳的结合亲和力选择性地调节其治疗靶点的生物学功能;2.它具有平衡的ADMET(吸收、分布、代谢、排泄和毒性)曲线,即它恒定且数量足够多地作用于相应靶点。
从头分子设计中的大多数努力是基于深度神经网络RNN、GAN和RL。一个最新的例子是Reinvent 2.0,这是一种用于从头药物设计的强大工具(关于Reinvent 2.0可参考本公众号文章REINVENT2.0:阿斯利康基于AI的从头药物设计工具)。这些DL方法在药物发现中显示出良好的潜力。然而,存在几个限制。首先,深度学习模型需要非常大量的高质量样本,而生物数据往往是有噪声的,数量有限,并且严重不平衡,这是DNN方法长期存在的瓶颈。第二,当前的方法在优化ADMET性质的同时在采样分子结构空间方面不是有效的。应用于现有分子的局部、小而慢的扰动,无论是表示为SMILES串(daylight)还是图形,都很难有效地探索广阔的可能化学和结构空间。这可以部分解释为什么GENTRL(Zhavoronkov开发的一个深度生成模型)需要21天才能产生几种活性化合物。此外,不考虑化学结构有效性的抽样不可避免地导致有效输出结构的百分比非常低。例如,通过有机生成的结构中只有7%是有效的。第三,由于瞄准的是移动目标,RL算法往往难以在探索和开发之间实现良好的平衡,难以进行长期信用分配,也难以实现良好的稳定性。第四,尽管RL在理论上可以优化多个目标性质,但在实践中,大多数情况下发现它只可以优化一个目标性质或多个目标性质的加权和。
为了克服限制,作者提出了一种称为逆向药物设计(RDD)的新策略,从多个预选的目标性质及其最佳范围开始,逆向生成“合格的”化合物结构。
RDD基于以下基本原理和考虑因素。首先,考虑到了用于小分子药物发现的可用生物数据的数量不足以训练深度学习模型的情况(深度学习模型中涉及数千到数百万个变量,不过对于传统或浅层机器学习模型来说是足够的)。其次,在过去的几十年里,作者开发了一个通用的分子描述符系统,称为optATP,包含269个描述符,这些描述符在所有物理化学和ADMET性质的传统机器学习预测模型中取得了优异的性能,可供使用。此外,optATP最初被设计为与SMILES具有良好的一对一关系;换句话说,一个SMILES产生一个optATP,而一个optATP对应尽可能少的分子。第三,optATP将分子分解为原子类型和官能团,大大增加了其对化学空间的覆盖。
RDD在概念上类似用于化学结构生成的逆QSPR/QSAR分析,但在实现中存在实质性的差异。Kotsias等人提出了基于广义条件递归神经网络的分子从头生成算法,在RDD中,作者独立地提出并利用了与前者相同的想法来从头生成分子。
为了评估RDD的性能,作者要求它产生12w个新的小分子,这些小分子可以抑制蛋白激酶活性,并满足其他5个重要的ADMET特性,包括溶解性和细胞毒性。选择了20个排名靠前的符合条件的分子,合成并测试主动定向竞争激酶结合和ADMET活性。
大多数激酶抑制剂与激酶的共同底物ATP竞争。它们具有一些共同的结构特征--具有相邻氢键供体和受体的平坦芳香部分,以促进与激酶高度保守的铰链区的有利相互作用,该部分倾向于堆积且在水溶液中聚集,导致溶解性差。作为主要的抗肿瘤靶点,如果许多蛋白激酶的功能对于细胞生长、凋亡或存活是必需的,抑制它们引起细胞毒性。
因此,将激酶抑制、可溶性和非细胞毒性这三个关键特性设计到一个分子中是一个巨大的挑战。如果RDD能够生成这样的分子,这将有力地证明该算法能够有效地搜索化学空间,找到一个小的平衡空间 (niche),在这个平衡空间中,多种看似排他的特性能够协调一致。
结果
常规RDD工作流程
RDD是一个计算药物发现平台,从头开始生成新的小分子药物,以满足预定的要求,包括但不限于针对药物靶点的生物活性以及物理化学和ADMET特性的最佳范围。分子结构由269个描述符的优化的基于原子类型的分子描述符系统或optATP表示。
图 1.逆向药物设计的流程图。
RDD从一系列目标性质及其首选范围开始。在这项研究中,所有的性质都是通过一个评估器从同一个分子描述符系统optATP中计算出来的。性质范围由L0-Ln和U0-Un的下限和上限定义(图1)。然后利用Monte Carlo抽样算法在ATP_LV的空间中找到具有目标性质的解。最后,使用LV2SMI的深度学习模型从解中解码分子结构。
LV2SMI
作者使用了NCATS化合物集合中的所有906727个独特分子,计算了optATP,进行了主成分分析(PCA),发现其中的7、14和38个主成分分别占总方差的95%、97%和99%。该集合包括已上市的药物、已进入临床试验的药物和其他生物活性分子,具有药学价值。利用主成分的特征或载荷向量,作者将分子的表示从optATP空间转换到载荷向量空间,称为ATP_LV。
作者使用7、14和38个元素的ATP_LV维度和1024、1280、1536和2048个单元的GRU单元训练了12个LV2SMI模型,并在测试数据集上给出了优化模型的精度(表1)。精度随着ATP_LV维度和解码器中GRU单元的单元数量的增加而提高。引人注目的因素是,即使是最简单的模型(尺寸为7,GRU单元为1024个单位)也能达到极高的精度。
表 1.测试数据集上优化模型的准确性
生成具有所需ADMET特性的激酶竞争结合配体
蛋白激酶是小分子药物发现的主要药物靶点。已经发现大部分激酶抑制剂溶解性差且具有细胞毒性。因此,作者决定挑战RDD,以创建具有有利ADMET特性的可溶性和非细胞毒性激酶抑制剂,评估其在采样巨大的化学空间中的效率。
在来自PCA的38个加载向量的空间中进行蒙特卡罗采样。从随机数的向量开始,RDD产生的化学结构,其中75%是化学有效的。RDD平均在每个CPU核心小时内找到100个解决方案,这些解决方案具有6个所需的目标性质。在有效结构中,约26%被预测为活性激酶抑制剂。对于其他5个ADMET性质,logP、溶解度、HERG、PAMPA和Cytotox被预测为期望的目标性质(表3)。
表 3.激酶竞争结合活性和五种ADMET特性的SVM模型的数据、性能和预定义边界
a回归模型;所有其他五个模型都是分类的模型。b由于数据不平衡,使用了七个子模型。c样品总数。d阳性样本数。eROC曲线下面积。logP是均方误差。f均方根误差。g目标性质的模型得分下限。h目标性质的模型得分上限。溶解度、hERG、PAMPA、细胞毒素和激酶抑制分别为0.458、0.296、0.459、0.570和0.453。
目标性质的实验确认
从激酶活性排名靠前的结构中,选择了20个具有平衡的ADMET特征的化合物,用于合成和实验测量97种代表性激酶的竞争结合活性和ADMET性质。选择的主要标准是预测的激酶活性、溶解性和细胞毒性、可合成性和结构多样性,旨在提供一些结构-性质关系(SPR)。给出了这20个选定结构的SMILES,经HPLC分析,所有化合物的纯度均大于95%。
表 2.预测和实验测量的由Wuxi AppTec合成的20种化合物的激酶竞争结合和其他五种ADMET特性b
预测和实验测量的激酶竞争结合、以及由RDD管道产生并由Wuxi AppTec合成的20种化合物的五种其他ADMET性质在表2。作者在这里展示的结果清楚地表明,RDD能够在广阔的化学空间中发现多个子空间重叠的特定区域。另一方面,hERG(一个重要的毒性终点)和渗透性(药物PK谱的决定性因素)似乎与化合物的激酶活性无关。换句话说,激酶抑制剂的子空间、hERG失活的子空间和良好渗透性的子空间可能在化学空间中共享更大的公共区域;因此,与设计具有良好溶解性和无细胞毒性的新型激酶抑制剂相比,产生满足这三个要求的新分子比设计具有良好的溶解性和无细胞毒性的新型激酶抑制剂的难度要小。
图3.RDD设计的20种化合物的化学结构。6个化合物表现出很强的激酶抑制活性,它们与PKIDB中的4426个激酶抑制剂的样品ID和最佳ECFP4相似性得分分别为NCGC00689657(0.59)、NCGC00689660(0.42)、NCGC00689661(0.44)、NCGC00689669(0.49)、NCGC00689670(0.45)、NCGC006896674(0.45)
在这项研究中,作者展示了RDD将所有特性设计到一个分子中的能力。除NCGC00689657外,6种强激酶抑制剂在结构上是多样化的(图3),具有出色的亲脂性,溶解度,细胞毒性,通透性和心脏毒性(hERG)特征。化合物NCGC00689657具有差的溶解度和渗透性,尽管其预测的溶解度和渗透性是好的。
讨论和结论
作者证明了RDD能够产生具有多种目标性质的新化学结构。在设计optATP时,主要动机之一是产生可以应用相同的系统来生成所有性质的QSAR模型。每个原子类型还被设计为携带关于其化学环境的足够信息,因此optATP描述符和相应的SMILES可以尽可能地相互转换。optATP为作者可获得的所有数据集提供了优秀的QSAR模型,并且大多数构建的QSAR模型达到了与实验测定相当的精度。即使是最简单的LV2SMI模型在从optATP复制分子结构时也达到了极好的精度。此外,optATP具有优异的降维性能。通过主成分分析,269个optATP描述符的空间可以减少到38个载荷向量(ATP_LV)的空间,方差覆盖率为99%。
与典型的深度生成模型不同,RDD不直接搜索化学结构空间,在ATP_LV空间(即38个加载矢量的空间)中执行蒙特卡罗搜索,RDD可以以更有效的方式探索更大的结构空间,而不会使分子结构失效。此外,从随机数出发,RDD旨在以无偏的方式搜索化学空间。在本研究中,由RDD产生的高百分比的结构在化学上是有效的和新颖的。在有效结构中,与可获得的激酶抑制剂药物/配体的最佳Tanimoto相似性得分<0.35,而在超过2000万个化合物的Aldrich目录中只有491个可用。这些结果表明,商业可用化合物的占比很小,不足以良好的覆盖巨大的化学空间。
RDD可以学习化学和结构规则,并将它们结合到生成新结构的过程中, RDD不仅学习了这些规则,而且知道如何应用这些规则并组成有效的化学结构。
RDD被设计为一个平台,允许单独优化多个性质,同时使用单个性质的各种评估器。因此RDD不需要非常大量的高质量样本来生成具有多个所需性质的新结构。蒙特卡罗采样算法非常稳定和快速。
RDD允许科学家加入或移除生物和ADMET特性,以满足其特定的设计要求,为真正合理的药物设计铺平道路。
虽然RDD有可能开创药物发现的新模式,但一个主要的限制是显而易见的。在这项研究中,配体-激酶结合亲和力的预测模型来源于可获得的4314个已知的和实验确定的来自PKIDB的激酶抑制剂和来自NCATS药物收集(NPC)的5894个非激酶抑制剂,并且它不是针对特定的激酶。随着更多蛋白质的3D结构变得可用,强烈需要可以预测配体与靶点的亲和力的通用评估器或模型;这样的模型将使RDD适用于大多数药物靶点。作者目前正在测试一个模型,该模型基于一个解耦的3D指纹,并在大量实验数据集上进行训练。
总之,作者提出并开发了一种新的计算药物发现平台,即逆向药物设计(RDD)。RDD平台能够从头开始生成高度新颖的结构,以满足预定的要求,例如激酶竞争结合活性和其他5种物理化学和ADMET特性。这种高效和多产的药物发现平台的可用性对于处理紧急公共健康威胁(例如新冠肺炎的大流行)是必不可少的。
参考资料:
Retro Drug Design: From Target Properties to Molecular Structures.
Yuhong Wang,* Sam Michael, Shyh-Ming Yang, Ruili Huang, Kennie Cruz-Gutierrez, Yaqing Zhang,Jinghua Zhao, Menghang Xia, Paul Shinn, and Hongmao Sun*.JCIM: 2022, 62, 11, 2659–2669.
https://doi.org/10.1021/acs.jcim.2c00123
--------- End ---------