2022年5月18日,瑞典皇家理工学院计算机科学系的N. Arul Murugan等人在Drug Discov Today发表文章,介绍了药物发现如何从基于机器学习和深度学习的评分函数中获益,并介绍了一些经过实验验证的案例。
主要内容整理如下。
摘要
实验性高通量筛选 (HTS) 是一种传统的药物发现方法,但在处理有数十亿化合物的巨大化学库时是昂贵和耗时的。通过使用可靠的计算筛选方法,可以缩小搜索空间。本文重点讨论了为解决药物发现中的分类和排名问题而开发的各种基于机器学习 (ML) 和深度学习 (DL) 的评分函数。另外介绍了一些研究,在这些研究中,ML和DL模型被成功地开发来确定先导化合物,这些化合物随后也进行了实验验证。
引言
考虑到与化学品和资源使用相关的成本,对巨大的化学库进行实验性HTS并不是一种可行的、可持续的方法。虚拟筛选 (VS) 是实验性HTS的对应计算方法,即测试化学文库中的化合物对可能与特定疾病有治疗意义的生物分子靶点的活性。不同配体的排名是根据一个评分函数决定的,评分函数的准确性决定了筛选结果的可靠性。
不同的评分函数已经被开发出来,并被称为基于物理学的、基于知识的、基于经验的和基于ML的评分函数,这取决于评分函数中不同变量的参数化方式。除了使用电子结构理论对配体进行排序 (或估计蛋白质-配体复合物的稳定性) 的情况外,可以参数化使用蛋白质-配体复合物的结构或/和抑制/解离常数及结合亲和力的现有实验数据。
随着蛋白质-配体复合物结构和抑制常数的信息量不断增加,数据驱动的ML方法正在成为基于结构和基于配体的药物发现领域的关键角色。在此,我们简要介绍一下那些使用ML和DL模型进行结合亲和力预测、也经过实验验证的研究。图1显示了VS的两个主要组成部分,即评分函数和搜索算法。
图1. 虚拟筛选 (VS) 的两个主要组成部分和不同类型的评分函数
机器学习 (ML) 评分函数分为基于配体 (或基于描述符) 的和基于结构的,取决于对配体单独使用描述符,或对靶点和配体都使用描述符。
药物发现和验证中基于AI的评分函数
基于配体的ML模型 (LBML) 可以针对一个独特的生物分子靶点使用不同配体的抑制/解离常数。这样的模型只适用于为模型所训练的同一靶点设计抑制剂,而不能转移到其他靶点。在LBML中,配体的各种描述符/特征和分子指纹被计算出来,当这些描述符/特征和分子指纹与抑制数据相结合时,就可以训练出模型。与包括几个参数的经典评分函数相比,这种评分函数可以依赖数百或数千个不同的描述符/特征。此外,经典的经验评分函数使用预定义的函数形式来描述描述符和结合亲和力之间的关系,而ML评分函数则不然。用于建立LBML模型的描述符可以是一维、二维或三维,描述符可以用经验法、半经验法或电子结构理论来估计。PaDEL、CDK、Mordred和 ChemDes都是用于计算描述符和指纹的工具。
基于结构的ML模型 (SBML) 和DL模型 (SBDL) 评分函数是利用各种数据库开发的,如PDBbind、CSAR、CASF和Astex diverse set。这些数据库是蛋白质-配体复合物结构和结合亲和性的来源。在这种情况下,特征是利用蛋白质-配体复合物的坐标计算的。这些特征可以是截断距离 (cut-off distance) 内不同的蛋白质-配体原子对的数量、原子杂化和质子化状态、氢键受体和供体之间的角度、原子的共价和范德华半径等等,这些都是从蛋白质-配体复合物的三维结构中计算出来。
与上述可用于计算基于配体的特征的工具一样,也有软件可用于计算描述蛋白质-配体相互作用的特征。特别是,BINANA软件可以计算348个描述符,其中包括距离在2.5-4埃内的配体-蛋白质原子对、静电作用、氢键、盐桥、可旋转键和π相互作用。
与基于配体描述符的评分函数相比,利用蛋白质-配体三维结构的评分函数可以更可靠,因为它们可以更准确地捕捉蛋白质-配体的相互作用。已经开发了许多这样的评分函数,如AKScore、RF-Score、DLScore、TNet-BP、Kdeep、Pafnucy、DeepBindRG、 KronRLS-MKL、SimBoost、DeepDTA、PADME-EFP、WideDTA、DockingApp RF、Cscore、Bappl 、OnionNet和PerSPECT ML。其中许多评分函数使用随机森林 (RF)、朴素贝叶斯 (NB)、支持向量机 (SVM)、k近邻 (kNN)、多层感知器 (MLP)、人工神经网络 (ANN) 或深度神经网络 (DNN) 算法,并针对不同版本的PDBbind、CASF、CSAR和Astex多样化数据集进行评估。
从数据集到模型有不同的步骤:(i)数据收集,其中包含实验性蛋白质-配体复合物结构和结合亲和力的数据集 (训练、测试或外部验证集);(ii)数据表征,即特征的计算;(iii)数据细化,其中最佳特征或结构描述符被选择并输入人工学习算法进行分类或回归。特征选择方法有主成分分析、基于树的方法、基于相关的方法和基于相互信息的方法等;(iv)使用各种指标评估模型的质量,如皮尔逊相关系数 (Rp)、斯佩尔曼等级相关 (Rs)、均方根误差 (RMSE) 和马修斯相关系数 (MCC)。这些模型在被称为测试集或外部验证测试的数据集上进行测试。除第一步外,上述所有步骤对LBML和SBML模型都是共同的,其中LBML仅使用SMILES的配体和抑制常数的数据集。
图2. AI 驱动的基于配体和基于结构的虚拟筛选工作流程
在SBML或SBDL的情况下,蛋白质-配体复合物结构和抑制常数的数据集被用来开发模型。一旦模型建立起来,就可以用来从未暴露的化学空间中筛选化合物,先导化合物可以被考虑用于实验验证和随后的临床试验。
表1列出了一些最流行的模型和用于验证的数据集以及它们相应的指标。
表1. 不同机器学习和深度学习模型对PDBbind、CASF和CSAR数据集的表现
经实验验证的ML模型
如上所述,所有的ML模型都要根据蛋白质-配体结构和抑制/解离常数的数据集进行验证。一旦模型得到验证,它们也可以被用来筛选其他化学库中的化合物,如ZINC或DrugBank,以确定新的先导化合物。目前只有有限的基于ML/DL的模型得到了实验验证。表2展示了基于人工智能的VS研究,其中的模型得到了进一步的实验验证。
表2. 使用机器和深度学习方法的虚拟筛选研究中的hit识别
基于配体的ML/DL模型
文章讨论了多个案例。
CYP1A2抑制剂预测的案例可以证明基于配体的ML在先导化合物鉴定中的应用。研究人员使用两种不同类型的VS方法 (一种是基于RF方法,另一种是基于ChemScore评分功能),对包含16 338个化合物的ZINC数据库子集进行了CYP1A2抑制剂的搜索。在被选作实验测试的41个化合物中,16个在0.3mM时对CYP1A2活性的抑制超过50%。尽管基于对接的筛选能产生更多的抑制剂,但就化学多样性和速度而言,ML方法被认为是一种有效的方法,可用于早期药物发现项目。
DNN和RF模型最近被用来识别新型三阴性乳腺癌 (TNBC) 抑制剂和m-阿片受体 (MOR) 激动剂,人工智能模型的表现优于经典的VS工具 (如QSARs)。在这项工作中,作者初步建立了MDA-MB-231抑制潜力的分类模型,使用了一组∼7000个化合物 (来自ChEMBL数据集),有613个分子描述符,包括结构指纹。总的来说,与多元线性回归 (MLR) 或偏最小二乘法 (PLS) (r2=0.24和0.69) 相比,DNN和RF对测试数据集的预测质量更好 (r2分别=0.84和0.94)。
此外,Montanari等人开发了四个ML模型 (逻辑回归、NB、SVM和RF) 来寻找潜在的新型乳腺癌抗性蛋白 (BCRP) 抑制剂;Fjell等人开发了一个ML模型 (尤其是ANNs),使用对1400个随机肽计算的QSAR描述符来预测抗菌活性;Liu等人开发了一个基于DL的VS方案P-SAMPNN,设计抗骨细胞生成的化合物;Vignaux等人开发了一个贝叶斯ML模型来预测丝氨酸-苏氨酸激酶糖原合酶激酶3 (GSK3β) 的抑制剂;Chen等人开发了四种不同的ML模型 (RF、SVM、GBRT和XGBoost) 来预测FGFR4和EGFR靶点的双重抑制剂。Yang等人使用三种不同的指纹 (MACCS、ECFP和Mol2Vec) 和XGBoost算法,开发了用于JAK2抑制剂分类和抑制潜力预测的ML模型。
从上述例子中得到的关键信息是,ML/DL方法不仅有助于快速识别感兴趣的分子,而且还能识别新颖的骨架。这种效率和新颖性的结合可以大大加快药物发现项目中配体的识别。
基于结构的ML/DL模型
最近,Adeshina等人成功地将基于ML的评分功能'vScreenML' (XGBoost框架) 用于基于结构的VS。作者开发了一个被称为'D-COID' (同构抑制剂和诱饵的数据集) 的挑战性数据集。该模型是用描述符开发的:Rosetta能量项、与分子间成对接触有关的特征 (用RF-Score和BINANA计算)、配体特定的分子描述符 (用ChemAxon计算)、以及配体构象熵的测量。vScreenML模型被用来对AChE配体复合物的20000个对接结构进行排名。在人类AChE抑制试验中,在23个50mM的化合物中,有10个化合物显示出超过50%的抑制作用,最有效的抑制剂的IC50值为280nM (Ki=173nM)。
Chin等人报告了SBML在设计白细胞介素-1受体相关激酶-1 (IRAK1) 抑制剂方面的另一个应用。在这里,基于仅配体、药效团和蛋白质-配体对接分数的特征组合被用来开发不同的ML模型,即SVM、LGBM和XGBoost,其中前者的性能被发现是比较好的。开发的ML模型已被用于使用Glide SP和Glide XP对VS中的分子进行重新排序。在这次筛选预测出的前38个候选分子中,发现有几个化合物的IC50在mM范围内。
结束语
ML和DL正在成为解决医学、生命科学和工程领域复杂问题的强大方法。当因变量对可测量的性质有非线性依赖时,传统的基于物理学和经验的方法可能会失败,但数据驱动的ML方法可以作为一种替代。计算药物发现项目也受益于这种数据驱动的方法,我们在此强调了为与不同疾病相关的生物分子靶点识别先导化合物的成功案例。
对于各种靶点,这些案例通过使用ML和DL方法,已经确定了具有nM和mM范围内的结合亲和力的化合物。此外,这些方法可用于筛选化学空间,如ZINC或DrugBank,这可以在相对较短的时间内促进先导化合物的鉴定。与经典的打分方法相比,由于可以筛选出巨大的化学库,识别先导化合物的成功率明显提高。
在此,我们讨论了各种基于结构和配体的ML模型,这些模型可以应用于药物发现中的分类和回归问题。显然,这种方法将大大减少药物发现管线中的时间和成本,为制药公司实现其可持续发展目标铺平道路。
参考资料
Arul Murugan N, Ruba Priya G, Narahari Sastry G, Markidis S. Artificial intelligence in virtual screening: models versus experiments. Drug Discov Today. 2022 May 18:S1359-6446(22)00203-3. doi: 10.1016/j.drudis.2022.05.013
--------- End ---------