编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Gerard J. P. van Westen, Anna K. H. Hirsch, Roger G. Linington, Serina L. Robinson和Marnix H. Medema团队的一篇药物发现综述。计算组学技术的发展为我们提供了新的方法工具,用以挖掘天然产物的隐藏多样性,为药物发现提供新的可能性。与此同时,人工智能方法,如机器学习,也在计算药物设计领域取得了令人兴奋的发展,促进了生物活性预测和针对感兴趣的分子靶标的从头药物设计。
细菌、真菌、植物和动物都能产生各种各样的专有代谢物,也被称为天然产物。这些天然产物包括了成千上万的不同化学结构,如肽和生物碱等等。这些物质帮助生物在特定的环境中茁壮成长,它们在复杂的生物间互动中起到关键作用,如作为信号、武器、营养侦查剂等等,以调解竞争和合作。在宿主-微生物群落的背景下,这些专有代谢物介导了微生物与其宿主之间的竞争和合作。历史上,这些天然产物在抗生素、化疗药物、免疫抑制剂和农作物保护剂的应用上取得了令人瞩目的成功。由于它们具有相对较高的三维性(与常见的“平坦”合成结构相反),这可能对调节具有挑战性的药物靶标很重要,以及它们作为天然代谢物的起源,这使得它们可能成为可以帮助药物到达其靶标的转运系统的底物。尽管在大约1990年到2010年之间,由于组合化学和高通量筛选的兴起,天然产物发现在制药行业的受欢迎程度有所下降,但在学术界和小型生物技术初创公司中,天然产物研究近年来已经复兴。这次复兴是由大规模的组学数据的可用性所驱动的,这些数据允许我们更深入地探索生物圈中隐藏的化学宝藏。在细菌和真菌中,大多数专有代谢物生物合成途径的基因(以及一些在植物和动物中的基因)在产生它们的生物的基因组中以簇的形式出现:现在已经实验性地表征了超过2500个这样的生物合成基因簇(BGCs)及其产物。这种物理上的聚集有可能促进通过计算基因组分析识别数百万可能的新分子的生物合成途径,这些途径可能为药物发现提供了起点。基于组学的自然产物发现和计算药物设计领域之间存在巨大的互补潜力(图1)。人工智能的使用可能会迅速推动这些领域的科学进步,并使它们的方法和方向趋于一致。例如,科学家们已经开始应用机器学习——一种通过使用算法从数据中识别模式以产生洞察力的人工智能子领域——来发现和结构表征自然产物,并预测结构与药物属性之间的关系。
图 1
人工智能在天然产物的应用
目前研究人员已经开发了一些人工智能技术,以通过预测生物合成基因和从序列或谱数据推断代谢产物结构,加速自然产物的发现。识别自然产物BGCs(生物合成基因簇)仍然主要依赖基于规则的方法。虽然这些方法在检测已知BGC类别方面成功,但它们在识别新型BGC或未聚类路径方面的有效性较低。在这些更复杂的情况下,机器学习算法已经被证明与基于规则的方法相比有显著的优势。这些方法是基于序列特征(如基因家族、蛋白质结构域和氨基酸序列属性)进行训练的。尽管它们的假阳性率仍然高于基于规则的方法,也会出现对已知类型BGC的假阴性,但它们已经在识别新类别的自然产物生物合成途径方面显示出了用处。例如,旨在预测新的核糖体合成和翻译后修饰肽(RiPP)家族的decRiPPter算法识别出了属于新类别的样本。
成功的自然产物药物发现研究需要有能力无歧义地解析分离化合物的结构36。由于自然界存在的代谢产物的化学复杂性,这项任务具有挑战性。结构阐明需要收集、分析和汇编多种数据类型,包括核磁共振(NMR)、红外(IR)、紫外(UV)、电子圆二色谱(ECD)和X射线光谱、高分辨质谱(HRMS)、MS/MS,以及实验和/或计算检查生产BGC内的编码酶等等。最近,微晶电子衍射(MicroED)技术,有潜力加速结构阐明,因为它允许分析亚微米大小的化学化合物晶体。总的来说,为了改进自然产物的结构表征,人们已经通过方法学、仪器和计算手段做出了重大努力,比如基于量子化学的理论计算和基于AI的结构预测。早在1960年,AI就已经被用来补充基于规则的方法,用于从MS数据中从头开始识别未知化合物。随后,AI被用来从MS光谱预测分子式,使用深度神经网络将MS光谱与分子数据库中的化合物匹配,从MS/MS光谱中从头开始阐明结构为SMILES字符串,并预测化学属性,从MS和碰撞截面(CCS)数据中识别小分子。
图 2
在自然产物药物发现中,人工智能最重要的应用领域之一是预测自然产物的大分子靶标、相关的生物活性和可能的毒性。准确预测这些特性将直接为我们提供哪些化学空间区域最有前途用于药物发现的线索。这将是基因组挖掘潜在成功的关键,因为目前的基因组挖掘结果在候选的BGCs列表上太大,而可用的策略来针对具有实际药物潜力的自然产物空间部分太少。人工智能技术,结合其他技术,可以帮助解决这一挑战(图2)。
新的自然产物成为药物候选的进展通常受到对其靶标缺乏了解的阻碍,这阻碍了它们的临床前测试和合理优化。考虑到代谢物分离和处理的复杂性,大规模实验确定这些分子的作用机制是不可行的。因此,能够从分子结构快速预测最可能的靶标的计算模型成为活跃的研究领域。几乎所有的计算药物发现方法都已成功应用于阐明自然产物的靶标,包括对接、聚类、生物活性指纹和机器学习等。在某些情况下,这也导致了关于已经进入临床试验的自然产物的作用机制的新见解。
基于结构的方法使用有关蛋白质靶标的空间信息来预测化合物的结合模式。这些信息可以从实验确定的结构中获得,或通过基于深度学习的建模方法获得。然后,可以通过诸如分子对接的策略枚举潜在的结合模式,并通过分子动力学方法考虑蛋白质动力学。基于结构的方法可以提供丰富的信息;例如,自由能摄动(FEP)方法的适用性和使用最近在学术和工业药物发现项目中显著增加。分子对接、分子动力学和FEP可以扩展到研究自然产物的亲和力。
目前,越来越多的方法正在被用于基于BGCs(生物合成基因簇)的DNA和/或蛋白质序列数据来预测生物活性。其中一种方法是利用现有小分子的知识,预测BGC的最终产物,并直接从这个预测中推断其活性。这种方法的一个问题是,预测结构不准确的BGC的活性时面临的挑战,因为最终预测中的微小错误可能导致真实化合物的活性差异很大。由于亚结构预测更为稳健,因此使用诸如β-内酰胺环或特定氨基酸等离散的亚结构特征可能会为更广泛的BGC产生更准确的结果。生物活性预测的新兴方法还借鉴了自然语言处理(NLP)领域的成果。例如,最初是为文本文档中句子的上下文感知嵌入而开发的NLP方法word2vec,已经扩展到使用pfam2vec将蛋白质结构域嵌入BGC。DeepBGC,一种从头开始的BGC预测工具,利用从蛋白质结构域派生的pfam2vec特性来表示预测的BGC;这些特性随后提供给随机森林分类器,以预测自然产物的活性。在DeepBGC框架的基础上,Deep-BGCpred实现了双模型串联筛选和“滑动窗口”策略,以更准确地检测BGC边界。正如NLP已经革新了其他领域一样,作者预期NLP在BGC和生物活性预测的应用将继续快速发展。
自然产物药物发现中的新兴人工智能方法
在上述所有应用领域中,人工智能技术仍处于起步阶段,缺乏(高质量的)标准化数据。然而,研究人员正在开发用于使用稀疏或可变训练集数据构建机器学习模型的精炼方法,而且新的(通常由社区推动的)举措开始出现,以策划或生成高质量的数据集。这些进步共同表明,人工智能方法论的准确性有望取得重大改进。
图 3
通过特征化,使复杂的分子数据变得可供机器阅读,在数据集中简洁地捕捉最重要信息对机器学习算法的成功至关重要(图3)。特征化本质上是一种简化。在极少数情况下,这可能导致两个或多个分子用相同的指纹表示。因此,应仔细选择与使用目标相符的特征化技术。分子特征化的最常见方法是将其分子结构转化为一系列位或计数。创建这种指纹的算法在化学信息学软件包中很容易实现,如RDKit,分子特征也可以手动确定。
过去十年中,研究人员开发了一系列多样化的人工智能算法,其中许多算法已成功应用于自然产物研究(图1)。近年来受到广泛关注和应用的一种机器学习技术是深度学习。深度学习具有捕捉非线性关系的灵活性,并能接受非表格的输入,这扩展了人工智能在自然产物计算研究领域的适用性,使其能够涵盖非欧几里得领域。在分子图上进行分子功能预测的深度学习有时会在环形指纹上胜过较简单的机器学习模型,尽管这似乎因数据集和应用而异。此外,可解释的人工智能方法已被证明可以提高这些深度学习模型的可解释性;例如,在评估临床前相关性以及药效团和毒性团的识别时。
深度学习的应用包括分子图神经网络方法,基于SMILES的从头生成药物分子的方法,基于图的从头生成分子的方法,以及性质预测和基于表面网格的方法。此外,编码器-解码器架构被用于从不同输入格式中为虚拟筛选特征化化合物。过去几年最值得注意的深度学习方法之一是AlphaFold,它可以通过从整个蛋白质数据的语料库中学习,从其主要的氨基酸序列预测蛋白质的3D结构。自AlphaFold取得里程碑式的突破以来,新的更准确的建模方法在此基础上不断提升标准,解决了多聚体结构预测等挑战。对于天然产物研究,结构预测非常重要,例如,它可以帮助预测天然产物生物合成酶家族中的底物特异性,或帮助预测药物耐药性的演变。AlphaFold的先例表明,深度学习有潜力解决天然产物计算研究中长期存在的问题,尽管目前天然产物数据仍然相对稀缺。
在天然产物研究领域,深度学习面临的最大挑战之一是获取大型整理好的数据集的开放访问权限。像深度学习这样的“数据饥渴”算法只有在训练数据集足以支持模型复杂性时才能提高性能。一种减少实际所需数据点数量的解决方案是使用预训练模型的权重,这些模型是在较大的化学数据集上预训练的。使用经过预验证和预训练的化学模型,如ChemBERTa或MoleculeNet,可以减少从头开始训练新模型所需的计算负载。在许多情况下,预训练的模型还将产生更高的预测准确性。尽管深度学习技术可以克服样本标签不完整和数据集小的问题,但半监督学习(将标记数据与未标记数据结合)可以帮助在标签不完整的数据集上进行学习。在过去这种方法已经被应用,例如,通过使用归纳支持向量机来提高天然产物生物合成酶的底物特异性预测,这有助于将未标记的序列空间的形状映射出来,以便更好地了解查询是如何与标记的数据点相关。另一种选择是迁移学习,这是一种策略,其中从一个广泛的数据集上学到的任务的知识可以转移到一个较少数据可用的相关任务上。这可以提高模型的效率,并缓解与低数据情况相关的问题。
数据来源与标准化
高质量的训练数据集对于人工智能算法的成功至关重要。非结构化数据集可以用于无监督学习应用,如降维和生物活性预测。相比之下,有监督的学习需要训练数据既要准确标注,又要有足够的训练空间来回答所提出的问题。对于自然产物应用来说,这是一个特殊的挑战,因为化学空间的广度很大,但大多数已发布的数据集的覆盖率却很低。数据增强和合成数据生成是有价值的技术,但应谨慎进行,以避免积累偏见。此外,数据错误在该领域是一个挑战。在许多实验室生成的异质生物公共数据通常会提供多种错误来源,这可能会阻碍高度敏感的深度学习方法。因此,整合不同的数据集并确保标注方法的一致性是机器学习训练集发展的一个主要瓶颈。
天然产物数据库庞大且多样,但也是高度碎片化的,目前缺乏全面和精心整理的数据资源。天然产物相关的数据在大型通用数据库中往往是代表性不足或未被标注为自然产品。此外,大多数天然产物数据库中对数据来源、获取和更改的记录维护得并不好。例如,可能缺少文献引用或关于源生物和相关BGCs的信息。此外,尽管有些数据库(如ChEMBL和BindingDB)包括纯化合物的生物测定数据,但很少有包括自然产品提取物和分数的生物测定数据。最后,一些自然产品数据库缺少全数据下载的选项,或不被学术团体开放使用。这些问题共同严重限制了用于训练人工智能模型的可用数据集的可用性。
图 4
目前一些较大的天然产物数据库,包括关于生物合成基因簇的最小信息(MIBiG)、天然产物图谱(NP Atlas)、全球天然产物分子网络(GNPS)、天然产物磁共振数据库(NP-MRD)和Norine等,提供了接受用户存放数据的机制(见图4)。然而,由于缺乏明确的存放数据的激励,存放率较低。此外,管理数据存放的基础设施(交互式网页构建、数据库版本控制、身份验证管理和数据库安全)以及整理和更正错误是复杂和耗时的,通常超出了学术数据库开发人员的能力。期刊文章提交的广泛且通常是手动的数据输入要求导致作者出现"存放疲劳"。自然产品相关的多种数据类型(如源生物、MS、NMR、BGC和SMILES)加剧了这种疲劳,并增加了用户必须浏览的平台数量,以便在开放存放库中存放原始数据。因此,社区必须开发机制来简化、激励和奖励数据和元数据的存放,比如通过开发一个用于预发布数据存放的集中场所,将这些数据传播到特定数据库(见图4)。
高质量数据集的基础始于实验设计和实践,其关键在于数据一致性。目前,公共领域中最广泛、最高质量的天然产物相关数据集是由少数几个实验室生成的。然而,通常这些数据集的价值因样品多样性的缺乏和单一研究可用的数据类型数量有限而受限。此外,即使使用了适当的对照和重复实验,对于同一样品集也可能在检测到的特性的质量和数量上存在根本差异。因此,全球数据的集合将非常有价值;然而,存在互操作性差(即连接资源之间的数据)和兼容性弱(即资源使用不同的标准和本体来注释和识别其内容)的挑战。通常,AI任务依赖于拥有大量的数据来进行训练和/或搜索。这一要求的挑战是,实验数据集可能只包含每个类别中的一个或非常少数的代表,限制了它们在模型构建中的价值。因此,致力于创建全面的训练集是该领域在拥抱AI技术时的一项重要步骤。
结论
总之,天然产物药物发现领域的人工智能进展主要受限于缺乏大型高质量的数据集,而不是缺乏创新的算法。作为该领域的一般建议,作者提醒人们不要仅因为新算法的“热门”因素而使用它们。作者建议仔细考虑哪些算法最适合可用的数据类型和数量;例如,由于天然产物数据集通常比通用的计算机视觉相关数据集小得多,这可能意味着更简单的模型和参数较少的模型可能更成功。
参考资料
Mullowney, M.W., Duncan, K.R., Elsayed, S.S. et al. Artificial intelligence for natural product drug discovery. Nat Rev Drug Discov (2023).
https://doi.org/10.1038/s41573-023-00774-7