人工智能和机器学习在药物发现中的应用

2022-03-04 14:39:17 浏览数 (1)

本文为《Artificial Intelligence in Drug Design》一书第4章的内容,作者是诺华生物医学研究所(NIBR)的Rishi R Gupta。

该书的总体介绍见Springer推出新书《Artificial Intelligence in Drug Design》

摘要

机器学习和深度学习是人工智能的两个子类,在这个大数据时代,通过将数据转化为信息并最终转化为知识,可以为药物发现研究和开发提供重要机会。机器学习或人工智能其实并不新鲜,但在过去几年中,出现了一些更好的应用方法,它们已经成功地应用于药物发现和开发。本章将概述这些方法,以及它们如何被应用于各种工作流,如药物发现过程中的生成化学、ADMET预测、逆合成分析等。本章还将尝试提供盲目利用这些方法的警告和陷阱,同时总结挑战和局限性。

1 简介

药物发现和开发不仅是一个漫长而复杂的过程,而且成本也相当高。在候选药物的推出过程中,有多个因素会影响到它的最终结果,即是成功还是失败。至少在早期药物发现过程中,利用各种人工智能和机器学习方法(包括这些方法和化学信息学工具的结合)可以相当迅速地获得某些见解。由于过去几年中数据的数字化程度显著提高,这一努力也得到了支持。这带来了新的机会,不仅可以获取和整理这些数据,还可以分析这些数据以提取知识,并有可能解决复杂的临床和临床前挑战(图1)。

图1|在药物发现和开发的不同阶段实施 AI/ML/DL

必须强调的是,这些数据类型不仅包括小分子和靶点信息,还包括图像,如病理图像、非结构化文本、检测数据、真实世界证据数据等。因此,AI/ML 方法非常适合使用,因为它们有利于药物发现挑战的各个方面并解决数据的多维性质。这也有助于实现多个过程的自动化,同时消除常规的人工任务,进而加快漫长的药物发现过程。

在过去的几年里,尽管Gartner Hype Cycle报告认为在常规药物发现过程中完全采用 AI和深度学习(“夸大预期”)还为时过早,但其他人坚信基于AI/ML的方法将可能彻底改变我们的工作方式。在我们看来,人们对AI/ML方法在药物发现中的成功持怀疑态度,但这些方法在制药行业的各个领域的采用每天都在增加。

在本章中,我们将试图回顾AI/ML方法在早期药物发现中的各种应用,并总结这些方法如何在药物发现过程中提供支持。本章不会尝试提供各种 AI/ML 方法的详细信息,但鼓励读者跟进本章以及本书中其他章节提到的相关参考资料,以获取更多详细信息和指导。

在我们开始讨论AI/ML方法如何用于药物发现的旅程之前,重要的是要了解两者之间的微妙区别以及深度学习。参照图2,很明显,机器学习是人工智能的一个子类。一般来说,机器学习被定义为一种计算算法,它可以学习和识别数据中的模式,并能在没有太多人工干预的情况下更快地洞察数据。

图2|人工智能、机器学习和深度学习的关系的示意图

人们经常讨论的一个挑战是,有多少数据是足够的,或者我们应该在常规基础上更新模型,等等。简单的类比一下,这些机器学习模型就像小婴儿。当婴儿出生时,他们对A、B、C或1、2、3没有概念,更不用说像微积分这样的高级课题了,但随着他们的成长和学习新事物,他们会变得更聪明,掌握新的想法,有能力将看似不相关的概念联系起来。

机器学习模型也是如此,即随着这些模型在新的和更大的数据集上得到训练或更新,他们做出更好的预测的能力就会提高。因此,我们建议不仅要从大量的数据开始,还要从多样化的数据开始,这样方法才有机会在多维空间中学习和识别模式。同样与人类有关(因为AI/ML方法是模仿人类大脑而开发的),随着年龄的增长,我们会学到更多的经验和知识,使我们有能力解决困难问题。

谈到数据,AI/ML方法的识别和应用也迫使制药组织在遵循FAIR原则(Findable / Accessible / Interoperable / Reusable, 即可查找/可访问/可互操作/可重用)的同时,进行更好的数据管理。这有助于为模型提供高质量的数据,以获得可重复的高质量的预测(关于FAIR原则可参考本公众号文章Drug Discov Today|罗氏/阿斯利康:通过FAIR Q最大化生物医药数据价值)。

除了FAIR原则,Schneider等人对数据如何遵循美国FDA定义的ALCOA指南(Attributable / Legible / Contemporaneous / Original / Accurate, 即可归因/易读/同步/原始/准确)进行了精彩的讨论。

在ML中,通常有两种主要的技术类型,即监督学习和无监督学习。监督学习方法通过从训练样本或有已知标签的数据集中学习。一般来说,整个数据被分成训练和测试数据,在某些情况下还有一个验证集。模型是在训练数据上建立的,并在保留的数据集上测试和验证。这些模型然后被用来确定感兴趣的样本的标签。监督方法的一些常见例子是随机森林、支持向量机和朴素贝叶斯等。另一方面,无监督学习方法可以识别数据集中通常没有标签的趋势或模式。在大多数情况下,降维方法被用来将数据降到较低的维度,因为在较低维度的数据中绘制模式是相当简单的。这也使得计算的效率大大提高。无监督学习方法的常见例子有自组织图(SOM)、k-means聚类、分层聚类等。

作为一般的原则,当药物发现管线中的一个机会或挑战被确认时,我们首先应该问自己,应用机器学习是否是一个好主意?是否有其他方法可以更好、更快地得到我们想要的信息?这就推动了对实际用例的调查,以及对这种应用的数据量和质量的评估。当大量的、高质量的、多样化的数据可用时,这些方法表现良好。虽然这不是一个硬性规定,我们不能给多少数据一个数字,但应该在与业内专家的合作中仔细评估。有几个用例不可能收集到大量的数据,如毒理学研究或各种体内研究,因此在应用机器学习方法和解释这类应用的结果时应极为谨慎。

在本章中,我们不会强调提供各种机器学习方法和算法(图3)在药物发现过程中的应用细节,读者可以在最近的一些文章和博客中找到,这些文章和博客提供了AI/ML在药物发现过程各方面的进一步细节。

图3|各种机器学习算法的思维导图

相反,在下面的章节中,我们将试图参照图4,对正在进行的机器学习在药物发现领域的活动进行简要概述。

图4|在早期药物发现过程中实施ML/DL方法

2 生成化学

生成化学方法也被称为"从头化合物生成",但在过去的几年里,由于新的生成算法的发展和计算能力的提高,它们已经发生了变化。这当然不是这些方法第一次被应用,但这些方法最近在制药领域得到了普及,使用深度学习方法设计和开发新的化学类型,因为它们是高效的,它们可能为手头的靶点提供独特的想法。此外,这些方法可以结合基于多参数的打分,以允许挑选出符合项目组设定的大部分标准的化合物。这总体上加快了整个DMTA(设计、测试和分析)周期的效率。

这些DL方法的主要特点之一是它们可以从结构数据中学习(例如SMILES),识别模式并生成潜在的新化学类型。这也是此方法与其他方法之间的主要区别,例如文库枚举或虚拟筛选(包括虚拟配体筛选)方法,这些方法要么需要合成规则,要么需要以潜在新颖和可合成分子形式存在的大量数据。除了生成完全新颖的分子,机器学习方法在开发新颖的片段方面也显示出前景,它可以生成与先导分子非常接近的分子,只是在骨架上有细微的变化。

在1060个类似药物的空间里,药物化学家必须利用多种方法和多年的培训和经验来获得一个"体面"的结构,这些结构有可能被合成并击中有关的靶点,同时具有有吸引力的特性。其中一些步骤可以由AI/ML方法支持,作为一个并行过程,但不能取代真正的药物化学专业知识。其中一个主要原因是,尽管利用这些方法可以带来潜在的成功和效率的提高,但使用这些方法仍然存在挑战,因为训练有素的模型往往会提供不理想的(有时是化学上不正确的)结构,与先导或起始分子不相似。此外,这些机器生成的分子也可能遭受挑战,如对靶点的生物活性低(甚至几乎没有),特性以及合成的可及性差。

总的来说,随着AI/ML研究领域的不断发展,方法越来越复杂,人们有可能利用一种量身定做的方法来生成新的分子。像生成对抗网络(GANs)和LatentGANs这样的方法已经提供了训练模型和生成特定目标分子的方法。此外,还有人通过利用基因表达信息来生成新的化合物,使化学和生物学相互接近。这些方法不仅可以生成靶点特异性或靶点结合性的分子,还可以带来所需的转录组特征。

在可能的情况下,在生成化学过程中允许逆合成成为潜在的一部分是有用的,这样用户就可以获得合成上可行的化合物。

3 靶点分析

目前面临的下一个挑战是靶点分析或靶点评估。这也包括预测多向药理学以及脱靶效应(包括毒性预测)。有几种方法可以利用,如对接或口袋挖掘。此外,还有几种AI/ML方法可以利用,如pQSAR。有几家公司如雨后春笋般地开发出专有方法,如Atomwise、Cyclica等。

Deepmind公司使用Alphafold进行蛋白质结构预测的最新进展也是基于DNNs。它分析了相邻氨基酸之间的距离和肽键的相应角度,以准确预测蛋白质的三维结构。这是一项成就,可以在药物发现的早期阶段为更快、更准确的化合物-靶点预测打开大门,而无需进行昂贵的实验。此外,较新的实验方法,如冷冻电镜,也有助于这一领域的发展,因为它允许高通量地生成结构数据,人们可以利用这些数据来开发准确的模型。

靶点分析领域的一个理想想法可能是利用机器学习模型,除了所有可用的临床前数据外,使用临床和真实世界证据(RWE)数据更好地验证靶点和疾病。这方面的一些工作已经发表,工业界、监管机构、学术团体和各种非营利组织之间加强数据共享,可以使其受益匪浅。

4 ADMET预测和评分

在过去的几年中,人们已经做了大量的工作,并发表了关于吸收、分布、代谢、排泄和毒性(ADMET)模型的讨论。各种学术组织和工业界已经投入了大量的资源来提供这些模型,因为经常会有由于不理想的ADME特性或毒性问题而导致的后期失败。其中一些特性可以用高通量的方式测量,从而产生适合机器学习的大型数据集。这些特性不仅包括典型的参数,如清除率、渗透率、流出率、脑渗透率、溶解度等,还包括各种物理化学特性,如LogD、LogP、pKa等。药物发现团队的一般想法是在虚拟设计阶段利用这些预测模型,试图找到最佳点,从而确定化合物的优先次序。

虽然这里不打算讨论各种建模方法或如何为各种终点建立模型的细节,但讨论一些最佳实践是非常必要的。

一些最佳实践

1.模型应该是可解释的,即为化学家提供某种指导,告诉他们如何设计具有更好特性的化合物。

2.模型不仅应该是可预测的,而且应该为每一个预测提供 "信心",以便用户能够评估预测的质量,特别是如果预测值将被用于任何下游计算,例如剂量预测等。

3.应定期更新模型,使其与新的测量数据(特别是来自高通量检测的数据)保持同步,并学习新的和多样化的化学知识。

4.在模型更新过程中,应该掌握某种前瞻性的预测,以便项目组能够以前瞻性的方式评估模型对其项目的质量。这也允许项目组在局部水平和全局水平上研究模型。

这些都是简单的指导方针,根据不同的使用情况,人们应该计划和评估是否已经考虑到这些做法,以及不同组织建立的其他做法。

ADMET分析的另一个重要方面是使用多参数评分或多参数优化,这使得科学家可以根据使用分子的物理化学、ADME和活性情况汇总的分数对分子进行优先排序。在这方面已经讨论了各种方法,这些方法可以很自然地作为生成化学之后的方法来选择具有理想特征的化合物。这些方法也为一般的药物化学工作流提供了价值,在这些工作流中,科学家拥有测量的和预测的混合数据。

一个有趣的想法是建立机器学习模型,除了利用预测的ADMET特性外,利用物理特性生成低剂量化合物。

5 合成规划

生成化学以及大规模的虚拟筛选等方法在任何特定的临床前药物发现活动中产生了数十万的分子。化学家面临的挑战是,不仅要过滤掉不受欢迎的分子,还要为积极分子制定合成计划。这就是一些分子可能不被看好的地方,因为它们可能难以合成,产量低,甚至在合成上不可行。不同的团队已经开发了反应规则、预测模型,用于生成分子的合成路线,以及预测反应的产量和条件。

这一领域仍在不断发展,新的规则不断产生,使模型更加强大。在Coley等人最近的一项工作中,一组约14万个反应模板被开发为框架。这些模板是从美国专利数据库中提取的,并应用于一组反应物以生成化学上合理的产物。此外,他们还用 "负面"的例子增加了数据集,这通常是这类计算机实验中缺少的数据。通过这种方法,该小组证明他们可以估计出潜在分子列表中哪种分子可能被优先考虑。

尽管计算机辅助合成计划具有一些优势,但仍有一些限制。文献中的例子仍然有限,无法充分覆盖反应空间的所有可能组合的构建块和骨架。此外,专利或发表的文章中报告的大多数反应都是"成功的"反应,因此,这些方法可以借鉴的负面例子并不多。一个可以预测反应条件、产量等的AI/ML方法可以从负面数据以及更大的各种化学空间数据中大大受益,而不仅仅是报告的正面数据。

为了能够收集到更大的数据集(其中可能包含更多不同的正面和负面的例子),我们可以设想建立一个联盟,在这个联盟中,各个制药行业的代表可以加密他们各自的ELN数据集,并在竞争前的水平上公开分享。这样就可以很好地收集涵盖不同反应空间的正面和负面数据,制药公司和各种学术团体都可以从中受益。不同的团队正在进行这样的工作,总的来说,似乎正在朝着正确的方向发展。

6 结论

计算效率的提高,加上AL/ML算法的进步,大大改变了药物发现的格局。虽然已经取得了重大进展,但在常规的药物发现和开发过程中,这些方法的潜力仍然没有完全发挥出来,无法将药物推向市场。

正如在各种参考文献中所描述的那样,各种学术界、工业界和非营利组织正在研究多种有前途的方法,这表明我们距离使用这些技术和人的循环过程来设计出具有确定属性范围的新型化学结构和预测合成路线的目标并不遥远。

通过这一章,我们的目的是让读者不仅意识到AI/ML在药物发现中的潜在应用,而且了解各个领域的不足之处和未来的改进。我们坚信,现在是工业界接受这些方法并将其作为常规药物发现过程的一部分的时候了。

参考资料

Gupta RR. Application of Artificial Intelligence and Machine Learning in Drug Discovery. Methods Mol Biol. 2022;2390:113-124. doi: 10.1007/978-1-0716-1787-8_4.

--------- End ---------

0 人点赞