编译 | WJM
计算化学和基于结构的设计历来被认为是可以帮助加速药物发现过程的工具,但通常不被认为是小分子药物发现的驱动力。过去的十年中,该领域取得了巨大的进步,包括(1)开发基于物理学的计算方法,以准确预测从效力到溶解度的各种终点;(2)人工智能和深度学习方法的改进;(3)随着GPU和云计算的出现,计算能力大幅提高,从而有能力探索和准确描述计算中大量的类药化学空间。结构生物学同时也取得了进展,如低温电子显微镜(cryo-EM)和计算蛋白质结构预测,使人们能够获得更多高分辨率的新型药物-受体复合物的三维结构。这些突破的汇合使结构化的计算方法成为发现新型小分子治疗方法的驱动力。2021 年 8 月 30 日发表在《Drug Discovery Today》的综述“From computer-aided drug discovery to computer-driven drug discovery”进行了阐述。
介绍
过去十年见证了计算建模能力的巨大进步,它推动了小分子候选药物的更快和更成功的发现。这些进展的重要性证据已经牢牢掌握在多家公司,它们成功地使用了一系列先进的计算方法来快速发现和推进已经进入IND阶段和人体临床研究的化合物。当然,这些成功提出了一个重要的问题:先进的计算药物设计方法是如何具体应用的,药物发现的哪些阶段和药物发现项目的哪些类型最有可能从这些技术中受益?
一般来说,计算方法在小分子药物发现的三个主要阶段都有不同程度的应用
- 初步识别活性分子(即苗头化合物的发现)期间的大规模化学空间探索;
- 机器学习和基于物理学的方法,用于将苗头化合物细化为具有足够靶向效力和 ADMET性质的先导化合物,以建立体内药效学和药理作用的证据(即先导化合物的命中);
- 使用基于物理学、基于结构、QSAR 和机器学习方法对先导化合物进行多参数优化,以实现所需的目标产品特征,包括支持体内药代动力学/药效学所需的效力、选择性和 ADMET 特性的平衡/ 在耐受性良好的暴露下的疗效关系(即先导化合物的优化)。
许多因素促成了计算武器库最近的演变,包括改进的算法,通过GPU和云计算资源获得更大的计算能力,人工智能方法的迅速成熟,自动化的大规模构思能力,获得大量的生物、基因组和蛋白质结构数据,以及基于云的化学意识数据库能力。
苗头化合物发现
为一个蛋白质靶点启动药物发现工作需要确定具有可测量亲和力的化学物质。基于配体和基于结构的虚拟筛选方法通常被用来识别这种配体。基于配体的方法使用基于机器学习的方法分析早期报道的某一特定靶标的小分子配体,以确定可能也与该靶标结合的新分子。基于结构的虚拟筛选依赖于将大量的化合物对接到所选靶标的三维结构中,然后评估蛋白质-配体接触是否会驱动结合。基于结构的虚拟筛选方法已经取得了进展,包括改进采样、评分函数、处理蛋白质和配体灵活性的方法,这些都使性能得到了显著提高。
基于结构的虚拟筛选也需要获得大量的化合物集合,以便与高质量的蛋白质靶标的三维结构进行对接。虚拟筛选中使用的化合物集通常是企业或商业上可用的化合物集。过去的10年中,商业上可获得的或可轻易合成的化合物的数量急剧增长。这些集合的规模使得操作、分析和过滤变得困难,这些步骤可以从基于云的技术的使用中受益。最近,人们开发了一些方法,允许利用主动学习工作流程对非常大的化合物集合进行基于结构的虚拟筛选。这种方法可以有效地筛选出非常大的化合物集合,以确定集合中的最佳得分化合物,其计算成本仅为对接整个化合物集合的一小部分,而且时间上与基于配体的方法相当。
苗头化合物到先导化合物和先导化合物优化
配体与蛋白质的结合是小分子生物活性的核心,因此优化亲和力是早期药物发现的核心。然而,许多其他因素必须同时优化,以产生符合目标产品特征标准的化合物,包括平衡的效力、选择性、溶解性、渗透性和ADMET特性,以证明体内的相关靶标参与以及在良好的耐受性血浆暴露中的预期药理作用。这可以通过有效的多参数优化方法来实现。
设计-合成-测试循环往复是必需的,以便从最初的苗头化合物推进到具有与相关临床前药代动力学/药效学关系相一致的特性的系列先导化合物,并最终发展到具有平衡的类药特性和预测的人体血浆暴露量的候选药物。
过去的10年里,通过自由能微扰(FEP)计算和自动化构思的结合,快速优化结合亲和力的方法已经取得了巨大的进步。从历史上看,自由能计算要达到影响命中率和优化所需的准确性、可靠性、易用性和吞吐量,一直是个挑战。然而,力场和采样算法的进步,加上低成本的并行计算,使得自由能计算的精度达到了kcal mol−1,足以推动更好的合成决策。这种自由能计算利用了基于力场的分子动力学模拟,并可用于检查分子构象、分子运动和分子间的相互作用。有了这种水平的准确性和洞察力,药物化学家可以在合成前根据FEP计算结果对他们的想法进行分流,减少合成的化合物不符合项目效力目标的比例。应该指出的是,如果有相关的非目标蛋白的结构,FEP也可用于优化选择性,而且成功地将自由能计算方法应用于各种蛋白靶标,以支持更快速的药物发现。
为获得上述准确度水平,关键是为靶标蛋白与正在优化的配体系列结合提供高分辨率的三维结构。如果结果证明这是有问题的,诱导拟合对接可能是一种替代解决方案。最近,一种将基于配体的药效团对接、刚性受体对接和蛋白质结构预测与显式溶剂分子动力学模拟相结合的诱导拟合对接方法产生了配体重原子 RMSD 在 2.5 Å 以内或更好的结合模式。此外,对于这种计算生成的近似结构,自由能微扰的成功使用得到了回顾性和前瞻性的证明。
传统的药物发现活动通常每年合成和测试大约一千种化合物,而计算方法每周可以高度准确地评估数十亿个分子。然后瓶颈变成在计算中生成可合成易处理的化合物。标准 R基团和基于反应的枚举可以很容易地生成不同的虚拟库,但通常受试剂或R基团集合的限制,并且通常不支持替换分子的核心部分。最近开发了一种方法,该方法使用逆合成分析,然后是组合再合成,以在可合成的化学空间中生成新化合物。这种方法允许以组合方式改变除R基团之外的核心,并进一步修饰侧链。每一步都可以去除不太可能推进项目的化合物。这种过滤可以包括去除不符合项目的预测特性标准、不以合理的对接分数对接到活性位点或包含不需要的官能团的化合物。
与虚拟筛选一样,主动学习可用于有效评估大量化合物。FEP 用于识别要合成的化合物,其中 FEP 在大约 1000 个化合物的随机子集上运行,所得预测亲和力用于生成机器学习模型,然后用于从原始集合的其余部分中选择另外 1000 个化合物,随后是机器学习模型的细化。经过少量迭代后,FEP 在优化的机器学习模型识别出的得分最高的化合物上运行,并选择化合物进行合成。现在,该过程已被前瞻性地用于以高效且具有成本效益的方式发现具有出色预测特性的高效化合物用于许多项目。
苗头化合物到先导化合物和先导化合物优化工作的主要障碍是 ADMET 性质的准确预测。当前的方法包括基于物理、基于结构、QSAR 和机器学习方法。QSAR 和机器学习方法依赖于对大量数据的访问,并且通常仅在评估结构与其训练集中发现的化合物相似的化合物时才可靠。另一方面,基于物理的方法不需要训练集。成功的基于物理学的方法已被开发用于溶解度的预测,膜通透性和苯胺毒性。由于许多 ADMET 相关靶标缺乏高质量的 3D 结构,因此较少采用基于结构的方法。然而,由于离子通道 (hERG)、转运蛋白(P-gp 和 SLC)和细胞色素 P450 的 X-ray和冷冻电镜结构的数量不断增加,表明基于结构的方法可能在未来改善 ADMET 问题方面发挥更大的作用。
扩大基于结构的建模范围
上面回顾的许多最强大和最有用的技术需要对所考虑的蛋白质靶标的结构进行实验表征。当考虑基于结构的药物设计项目的靶标时,第一步是评估是否有足够的三维结构。过去的十年中,用于基于结构的药物发现的蛋白质结构的数量有了很大的提高。
蛋白质数据库(PDB)和电子显微镜数据库(EMDB)等公共资料库中的大分子三维结构,共包含19万多个蛋白质、DNA、RNA、病毒或蛋白质-核酸复合物的结构。这些结构是通过X-ray晶体学、核磁共振(NMR)和冷冻电镜确定的。近年来,结构可用性的增加部分归功于低温电镜、同源建模和深度学习的普及。历史上,低温电镜无法产生足够高质量的结构来推动基于结构的药物发现项目;然而,它目前正在经历所谓的 "分辨率革命",今天,足够分辨率的结构,包括与配体结合的结构,都是常规获得。此外,冷冻电镜极大地扩展了可以使用基于结构的方法来处理的靶标类型,因为它特别适用于大型蛋白质、多聚体复合体和膜结合的蛋白质,所有这些都是难以结晶的。
一旦获得了蛋白质-配体复合物结构,就可以使用现代力场来准备和完善原子模型。从冷冻电镜生成的map中生成生物分子-配体相互作用的准确原子模型通常会带来方法学和配体结合的动态性质固有的挑战。最近,已经开发出计算化学方法,考虑到 EM 映射势、量子力学能量计算和水分子位点预测以生成候选配体姿势并提供置信度的度量。这种方法已通过几种已发表的具有不同分辨率范围和各种类型配体的复合物的冷冻电镜结构得到验证。所有情况下,至少一个确定的姿势产生了与靶标良好相互作用和与图谱的一致性,因此,对于通过冷冻电镜对配体姿势的可靠识别和药物发现工作非常有价值。
尽管在实验结构测定技术方面有这些创新,但不可避免地会存在这些方法无法实现的一些靶标。令人鼓舞的是,过去一年中,在根据氨基酸序列预测蛋白质的 3D 结构方面取得了令人瞩目的进展。DeepMind 的 AlphaFold 在一项名为 CASP 的两年一度的蛋白质结构预测挑战中击败了所有其他团队。AlphaFold 将深度学习与生成氨基酸簇结构的算法相结合,然后寻找将这些结构连接到整个蛋白质结构中的方法。这些结果为基于结构的方法适用于尚未通过实验确定同源蛋白质结构的靶标提供了希望。然而,目前这种方法还没有扩展到全息结构。
总结
快速获得感兴趣药物靶点的结构数据的能力,然后是快速的计算化学探索以识别和推进新的、有效的化学先导物,对小分子发现的成本、速度和质量产生了变革性的影响。研究人员预计结构生物学、计算化学和机器学习领域的持续进步,加上 GPU 加速计算能力的提高,将直接导致向患者提供更新颖、更安全和更有效的药物。
参考资料
Frye, L., Bhat, S., Akinsanya, K. and Abel, R., 2021. From computer-aided drug discovery to computer-driven drug discovery.
Drug Discovery Today: Technologies.