ACS Med Chem Lett|现代药物研发中的计算应用和工具汇总

2022-11-16 18:17:47 浏览数 (2)

2022年6月1日,来自美国艾伯维的研究人员在ACS Med Chem Lett上发表综述文章Contemporary Computational Applications and Tools in Drug Discovery,详细统计了当前在药物设计领域被广泛使用的计算机应用和工具,并且根据工具的属性进行了细致的分门别类。

摘要

在过去的十几年中,人们已经开发的计算应用程序和工具的数量急剧增加,使药物化学家能够更有效地执行现代药物发现计划。用户友好、设计良好的基于结构的药物设计(SBDD)和基于化学信息学(CI)的药物设计的计算工具的兴起,为药物化学家提供了大量的工具和应用程序,显著提高了设计-合成-测试-分析循环的速度和效率。

现代计算应用和工具涵盖了药物发现的所有领域,大多数聪明的药物化学家可以在无数的药物发现应用中有效地使用它们。事实上,药物化学家可用的工具的范围和广度是巨大的。在本文中,我们对目前可用的许多计算工具、平台和应用程序进行了分类,重点介绍了四个主要领域:商业可用的工具/平台、开源应用程序、制药或生物技术组织内部开发的软件工具,以及基于人工智能/机器学习的平台。我们提供了详细的分类列表,表格涵盖了供应商或组织名称组织、应用程序的名称、工具/应用程序是否主要用于SBDD或基于CI的设计、以及工具的主要功能的摘要,以及相关的供应商网站超链接。虽然我们试图尽可能详尽地进行收集概括,但这些工具的发展速度是如此之快,这些工具和软件的更新版本可能存在遗漏。

正文

自20世纪80年代初,计算机辅助药物设计(Computer-Aided Drug Design,CADD)诞生以来,计算机应用和工具被用来促进和加速药物的发现。由于理论化学和物理学、计算机科学和统计学的创新应用以及计算能力的大幅增长,该领域迅速发展壮大。巨大的算力促使了数据科学的进化,它使大量知识衍生化,从而使生物和化学信息学领域蓬勃发展。在过去的10年中,随着用户友好型软件的发展,药物发现计算工具的使用已经不再只是局限于CADD专家,大部分药物化学家都可以广泛使用的一系列桌面工具来进现代药物设计。

事实上,一些公司已经鼓励、授权和培训专门的药物化学家使用计算工具,以特定的"设计师"角色来简化药物发现过程。是否采用设计师模式在很大程度上受个体组织的理念和文化的支配,这种方法的价值仍然是药物化学界争论的一个话题。仅在过去的十年中,由供应商开发的计算工具的数量显著增加,计算机工具的应用范围也显著扩大。尽管10年或15年前制药公司更倾向于开发自己的定制工具,但如今商业工具的可用性已经使许多公司的注意力转向使用这些用户友好、可靠和良好设计的平台进行药物设计,以改善整个设计-合成-测试-分析(DMTA)周期。

优化先导化合物以产生候选药物和最终获批的药物是一个迭代过程,其中许多参数必须进行并行优化。平衡和优化多个参数(MPO),以产生有效的、选择性的、可溶的、可渗透的和代谢稳定的化学物质;并且具有良好的口服生物利用度,具有足够的安全性,这些优化是一个非常复杂和具有挑战性的过程,可能需要多年的时间。并行处理并不是人类特别擅长的,人为失误的可能性很高,而计算机就是为了这样的目的而建立的,计算机在处理大量数据的重复性工作中非常有用。

随着机器学习的出现,以及最近深度学习的出现,高效的基于计算机的MPO成为现实,并且与生成化学方法相结合,可以显著减少DMTA循环的次数、待合成化合物的数量,更重要的是节省化合物上临床的研发时间和成本。目前还没有人工智能/机器学习(AI/ML)衍生的化合物一路走向市场,然而,这只是一个时间问题。

计算工具在药物发现和开发的许多领域具有适用性。本文已经列出了最近出现和发展的许多可用的计算应用程序和工具,特别是与DMTA循环有关的药物发现。此外,本文的重点集中在工具是否整合了SBDD或者CI的药物设计。

SBDD利用晶体学衍生的蛋白质结构或相关的同源模型,在结合配体和不结合配体的情况下设计潜在的药物。此类应用的例子包括虚拟对接/筛选和从头设计。基于CI的设计工具是那些通过对化学和生物数据的整理、操作和分析来促进潜在药物设计的工具。CI应用的例子有化学相似性计算和搜索、聚类、R基团分析和匹配分子对分析。

这里,我们突出了5个主要领域。表1,主要是商业可用的工具/平台;表2,各制药公司内部开发的平台;表3,开源工具和软件;表4,那些专注于AI/ML应用于药物发现的公司;表5,使用ML方法专门用于综合预测的工具。

表1. 各种SBDD和CI的商业软件和工具

在项目的早期阶段,需要对Hit ID进行筛选,了解需要探索的化学空间的范围、宽度和程度对于识别易处理的化学物质至关重要。公司的筛选收集是有限的,而且数量不足以充分地反映出类药分子的化学空间的巨大规模。即使引入了DNA编码库(DEL)技术,这极大地扩展了可合成的化学空间,使其达到数十亿,但只有使用创新的计算方法才能实现对超贵化学空间的管理和探索。构建虚拟库的方法有很多,要么使用具有大量但数量有限的完全枚举结构(106),要么使用拓扑/药效团特征编码的片段化分子表示,例如特征树(FTrees),这使得化学空间的虚拟扩展达到前所未有的水平(1026)。毫无疑问,这些方法有其优点,也有其缺点,但它们在单独或协同使用的Hit ID中都是有效的。化学空间的探索是通过计算方法来实现的,供应商提供了多种工具来进行搜索、聚类、相似性评估和映射(降维)。虚拟筛选适合药物研发的所有阶段,它能增加现有的ht系列,且识别新的不同的化学、系列,以增加研发成功的概率。

事实上,如果一个项目能够利用一个可靠的的蛋白质晶体结构,虚拟对接可以说是优化配体结合的主要工具。在没有结构的情况下,但发现了已知的结合子,基于配体的虚拟筛选或骨架跃迁可以用来识别新的系列。幸运的是,有越来越多的来自供应商的计算工具,使基于配体的虚拟筛选和骨架跃迁都采用了非常创新的方法,这些方法已经成功在药物研发流程中被使用。

药物研发流程“hit化合物→先导化合物→先导化合物优化”是一个复杂而具有挑战性的流程范式,其中先导化合物的许多不同性质必须同时优化和迭代,以达到在相关疾病模型中预期的体内有效(药代动力学/药效学,PK/PD)。这可能是通过采用MPO方法来有效实现的,而这一过程在当代药物化学优化方法中正成为主流。因此,与结合和功能活性的优化一致,基于物理化学性质的同步优化对于任何药物化学项目的成功都是必不可少的。为了实现这一点,必须使用体外和计算参数的混合来获得针对单个项目的多参数计分函数。越来越多的计算设计平台能够使用一系列定制的方法来执行MPO;此外,一些供应商现在也提供了这种数学方法的服务。

许多制药和生物科技公司都配备了IT基础设施,这些基础设施为充分增加和改进药物发现过程所需的许多计算方法提供了便利。这些方法的范围和效用取决于公司个体,采用了内部和外部开发的应用程序和平台的混合。在过去的几年中,计算药物发现的力量已经得到了证明,伴随而来的药物化学界的兴趣也随着从头设计方法的发展而提高(表2)。利用DL模型,这些方法可以生成新的化学分子,并对其进行优化,使其具有针对性的亲和力、PK甚至安全性。此外,基于AI的平台可以学习哪些类别的化学物结合特定的蛋白靶点,并生成相关的新化学物质,能够结合和功能调节感兴趣的蛋白靶点,最终导致非常迅速的临床候选化合物的优化。当然,生成平台的成功与生成和优化阶段的训练集所使用的数据的范围和准确性成正比。

表2. 各种SBDD和CI的药学性质软件

因此,通常情况下,这种方法最有效地工作在诸如激酶之类的靶标上,其中有丰富的可靠数据,以实现更准确的预测和最有前途的药物从头设计。然而,通过使用这种方法针对更具挑战性的靶标,如蛋白裂解靶向嵌合体和蛋白质-蛋白质相互作用(PPI),使不易处理的治疗靶标更加困难,传统的药物化学方法也是如此。然而,这些生成平台的发展变化速度如此之快,以至于在未来几年中这些平台的发展程度如何,以及它们是否能够产生新的化学物质来治疗这些具有挑战性的高价值靶标,这将是非常值得期待的。

除了讨论生成模型,以及开发了大量的软件工具来生成和测试各种概念分子,考虑与化学合成预测相关的方法是很重要的。在过去几年中,出现了一些新的工具(表3),使药物化学团队能够快速评估难以合成或新的化学类型的合成方法。这些方法有的是在大型反应数据集(例如, USPTO数据集)上训练的基于ML的方法,也的是使用的手工编码规则的方法。其中一些方法是商业的,一小部分是开源的(如AiZynthFinder)或集团联盟(例如, ASKCOS)的一部分。

表3. 各种SBDD和CI的开源软件和工具

这些工具非常具有前景,并且由于新的反应数据集的不断加入,工具的可用性将持续下去。随着这些工具在网上的出现,每个制药公司都必须确保使用纯净和可靠的电子实验室笔记本(ELN)数据,利用积极和消极的数据(失败的反应)来训练模型。此外,将内部数据与公开数据结合起来可能会提高模型的整体质量。各种商业软件提供商已经朝着这个方向发展,即允许使用内部和外部数据集来重新训练模型。

表4. 提供创新药物研发服务的前沿AI/ML公司

当前一个重要的争论话题是实现基于Web的软件还是基于桌面的软件,这会导致多个问题,如最佳机器配置、安全性等。常规的软件升级和更新,且让每个科学家能够使用的同时理解这些升级的影响,对于IT组织来说可能是一个重大的挑战。在过去的几年里,大多数的化学信息学和分子建模应用已经转移到基于Web的平台上。此外,在"云"上托管应用程序不仅方便用户访问,而且简化了IT组织的应用程序部署。

在过去的十年中,随着计算机资源变得相对便宜,新的方法不断被开发和采用,实现了密集型计算的潜力。这就提出了一个重要的问题,即在本地可用的高性能计算(HPC)设施上运行一些密集型计算,而不是托管在外部基础设施上(例如,在学术机构或云提供商内部租用)。与其他选项相比,构建内部HPC的决定可能会对供应商的软件获取及其部署提供巨大的障碍。

基于软件的使用和计算性质,制药组织应该仔细规划软件部署的正确架构,因为它直接影响负责管理此类软件的IT组织。另一个需要考虑的重要方面是:软件即服务(SaaS)、平台即服务(PaaS)或软件或技术的本地安装。在过去的几年中,许多软件提供商也提供了他们的Saas或Paas的解决方案。制药公司在做出许可或使用解决方案的决定时,必须在利用技术之前对此进行审查。

表5 提供基于AI/ML合成预测的创新药物研发服务的公司

药物化学家可用的计算应用程序和工具的数量和程度都在迅速扩大,预计未来几年将继续保持这一速度。计算工具是药物发现流程的组成部分,它们在过去的十年里很大程度上改变了药物化学的实践方式。在表格中,我们突出显示了150多个来自不同供应商的工具或应用程序,其中50多个主要集中在SBDD上,80多个集中在基于CI的应用程序上,其中至少有10个工具或应用程序是同时基于CI和SBDD的。其中提到的许多供应商与大多数顶级制药公司都有关系,因此药物发现行业也有许多类似的工具。

然而,任何一个组织都不太可能获得表中提到的所有工具,因此,我们希望这将为当前的计算工具景观提供一个视角。我们知道,在这篇文章发表的时候,这个列表很可能已经过时了,但我们觉得许多重要的计算应用程序已经被捕获,这些工具将继续帮助药物化学家在未来几年成功地管理药物发现工作流程。

参考资料

Cox PB, Gupta R. Contemporary Computational Applications and Tools in Drug Discovery. ACS Med Chem Lett. 2022 Jun 1;13(7):1016-1029. doi: 10.1021/acsmedchemlett.1c00662.

--------- End ---------

0 人点赞