Nat Chem Biol|临床前药物发现中的机器学习

2024-07-30 13:57:01 浏览数 (1)

药物发现和开发是一项既费力又费钱且耗时的复杂过程。从靶点识别到药物上市,整个过程可能长达12年,耗资超过25亿美元,但成功率却不足10%。尽管近年来技术取得了显著进步,但药物开发的成功率依然很低,成本高昂。因此,如何提高药物研发效率、降低成本成为业界亟待解决的问题。机器学习(ML)技术的发展,尤其是深度学习(DL)的兴起,为药物研发提供了新的机遇。

2024年7月19日,来自加拿大麦克马斯特大学的研究人员在Nature Chemical Biology上发表研究Machine learning in preclinical drug discovery,讨论了在药物发现的临床前阶段整合机器学习方法的现状和未来前景,重点关注其在不同疾病领域的应用,以加速初始药物发现、作用机制(MOA)阐明和化学性质优化。

新药研发涉及多个复杂环节,包括靶点识别、化合物筛选、活性验证、作用机制阐明及临床前和临床试验等。传统的药物筛选方法,如高通量筛选(HTS),尽管可以大规模测试化合物库,但成本高昂且耗时。此外,从HTS中筛选出的化合物往往需要在后续阶段经过复杂的验证和优化,进一步增加了研发周期和成本。据统计,从候选药物进入临床试验到最终上市的成功率仅为10%左右,大部分候选药物在临床试验阶段因缺乏疗效、毒性过高或不符合市场需求等原因而失败。

机器学习,尤其是深度学习,具有从大规模复杂数据集中自动提取特征并进行预测的能力。随着生物和化学数据的不断积累,ML技术在药物研发中的应用前景日益广阔。与传统方法相比,ML具有以下优势:

  1. 高效筛选:基于ML的虚拟筛选技术可以快速评估大规模化合物库,从而显著提高筛选效率。
  2. 精准预测:通过训练大量数据,ML模型能够预测化合物的生物活性、毒性、药代动力学等关键参数,为药物优化提供指导。
  3. 作用机制阐明:结合蛋白质结构预测技术,ML有助于揭示化合物的作用机制,为基于结构的药物设计提供理论依据。

ML在药物研发中的应用

在这篇文章中,作者概述了各种机器学习方法在一系列疾病领域的小分子疗法临床前药物发现中的应用。可以分为以下三个药物发现步骤:

图1 机器学习在药物发现中的应用

第1步:靶点识别

在药物研发的初期阶段,首先需要确定潜在的药物靶点。ML技术在这一阶段的应用主要体现在虚拟筛选和分子特征化上。

虚拟筛选

传统的HTS方法成本高、耗时长,且命中率较低。以ML为指导的虚拟筛选技术提供了一种更为高效的替代方案。虚拟筛选通过构建ML模型,对化合物库中的分子进行快速评估,从而筛选出具有潜在生物活性的化合物。例如,深度定量结构-活性关系模型(DQSAR)利用深度学习模型量化结构-活性关系,改进了大型化学库的虚拟筛选效果。

图2 ML引导的虚拟筛查

分子特征化

分子特征化是虚拟筛选的关键步骤。传统的分子表征方法,如指纹向量,往往无法捕捉分子连通性的上下文细节。近年来,基于图神经网络(GNN)的方法,如有向信息传递神经网络(D-MPNN),通过结合任务和上下文感知分子嵌入,显著提高了分子特征化的准确性。这些模型在抗菌药物的发现中取得了显著成果,如卤化霉素和阿巴霉素的发现。

第2步:MOA阐明

在确定了潜在药物后,需要详细阐明其作用机制(MOA)。MOA阐明涉及复杂的生物实验和数据分析,ML技术在这一阶段同样发挥着重要作用。

蛋白质结构预测

蛋白质结构预测是MOA阐明的基础。近年来,基于深度学习的蛋白质结构预测方法取得了突破性进展。例如,AlphaFold(AF2)通过多序列比对(MSA)和深度学习技术,成功预测了多种蛋白质的三维结构。尽管AF2在某些复杂结构预测上仍存在局限性,但其准确性已足以支持基于结构的药物设计。

图3 AF2用于MOA说明

蛋白质对接和计算设计

蛋白质对接技术通过模拟配体与受体的相互作用,预测结合亲和力和结合模式。然而,传统对接算法计算量大、耗时长。基于深度学习的对接技术,如DiffDock,通过将对接过程转化为生成建模问题,显著提高了对接效率。此外,扩散生成模型(DGM)也被应用于蛋白质设计任务,如RoseTTAFold diffusion(RFdiffusion),能够生成具有特定功能特性的蛋白质。

图4 MOA阐明的扩散模型

第3步:转化研究

在临床前药物发现的后期阶段,主要目标是将有前景的分子优化为更可行的候选药物。ML算法在这一阶段的应用主要体现在多属性优化和药物特性预测上。

多性质优化

传统的候选药物优化方法依赖于结构-活性关系研究,通过修改核心子结构来优化药物的各项特性。ML算法通过预测分子的类药物特性和毒性,为候选药物的优化提供了更为全面的指导。例如,利用ML模型预测溶解度、口服生物利用度、毒性和hERG安全性等参数,可以在药物发现的早期阶段就筛选出具有有利临床特性的候选药物。

药物特性预测

药物的溶解度、ADMET特性等是决定其临床成功与否的关键因素。ML算法在这些特性的预测中表现出色。例如,利用支持向量机(SVM)、多层感知器(MLP)等模型预测分子的log(P)值(亲脂性指标),可以显著提高预测的准确性。此外,通过训练图卷积神经网络等模型预测hERG毒性等关键毒性参数,可以在药物发现的早期阶段就排除潜在的毒性风险。

结论和展望

随着ML技术的不断发展及其在药物研发中的广泛应用,未来的药物发现过程将更加高效、精准。然而,要充分发挥ML技术的潜力,还需要解决以下几个关键问题:

  1. 数据质量与数量:高质量的大规模数据集是训练高性能ML模型的基础。因此,需要不断积累和完善生物和化学数据资源。
  2. 模型可解释性:提高ML模型的可解释性对于理解其预测过程和确保预测结果的可靠性至关重要。未来需要开发更多具有可解释性的ML算法和技术。
  3. 跨学科合作:药物研发涉及生物学、化学、计算机科学等多个领域。加强跨学科合作有助于充分发挥各自领域的优势,共同推动药物研发的进步。

机器学习技术在药物研发中的应用为传统方法带来了革命性的变革。通过整合ML技术,可以显著提高药物筛选的效率、准确性和成功率。未来随着数据资源的不断丰富和算法技术的不断进步,ML在药物研发中的应用前景将更加广阔。我们有理由相信,在不久的将来,ML技术将成为药物研发不可或缺的一部分,为人类健康事业作出更大的贡献。

参考资料:

Catacutan, D.B., Alexander, J., Arnold, A. et al. Machine learning in preclinical drug discovery. Nat Chem Biol (2024).

https://doi.org/10.1038/s41589-024-01679-1

--------- End ---------

0 人点赞