从历史上看,只有当高分辨率晶体结构或冷冻电镜结构可用于感兴趣的受体时,科学家才能利用基于结构的药物设计(SBDD)。随着AlphaFold2的发布,这种范式似乎正在发生变化。AlphaFold2是一种基于机器学习的算法,据称能够根据蛋白质的基因序列准确预测人类基因组中几乎所有蛋白质靶点的结构。虽然这一突破因有可能重塑药物发现的前景而受到赞誉,但预测结构的质量和实用性仍然存在疑问。
2023年10月30日,薛定谔官方网站发布了薛定谔高级总监Edward Miller接受采访的文章,在文章中,他介绍了使用AlphaFold模型进行SBDD的经验。
Edward Miller博士是薛定谔蛋白质结构建模高级总监,他于2014年加入薛定谔,负责推进基于结构的药物发现在具有挑战性的靶点和非靶点领域的适用性。Miller博士在哥伦比亚大学获得博士学位,并被授予美国能源部研究奖学金。他与Richard Friesner教授的论文工作涉及开发方法以准确模拟各种蛋白质家族的环形构象。他最近的工作重点是开发诱导拟合对接和蛋白质结构完善的方法。
问:AlphaFold结构可以作为基于结构的设计的起点吗?
答:自AlphaFold2发布以来,这已成为药物发现中最紧迫的问题之一。根据我们的经验,答案是肯定的,有时可以,但必须使用AlphaFold2程序之外的方法进行大量的计算改进和验证。在过去的两年里,我们一直在测试这些模型,并将我们最新的一些分子建模技术用于这项任务。我们发现,由于AlphaFold2蛋白质结构不包括任何与蛋白质结合的配体,这会改变蛋白质的结构,因此预测的结构可能包含导致虚拟筛选结果不准确的错误。同样的局限性影响了AlphaFold2在其他工作中的效用,例如G蛋白偶联受体(GPCR)的前瞻性设计。
我们探索了AlphaFold在两个主要领域的应用:hit发现和GPCR结构预测。我们已经发表了两篇关于这些主题的论文,还有其他几个研究项目正在进行中。
问:AlphaFold结构可用于查找hit化合物吗?
答:我们对这个问题进行了回顾性调查,似乎AlphaFold结构确实可以为hit发现提供一些效用,但有一些非常重要的警告。首先,您必须知道结合位点和结合模式,其次,您必须了解至少一种先前确定的hit化合物才能改进结构,而这并不总是可用的。
第一个问题是,为了能够对大量配体进行基于结构的虚拟筛选,必须对受体进行严格处理,这意味着即使是结构中的微小错误也会影响评分准确性并限制发现真实hit的能力。在我们的研究中,我们通过对已知数据集中的37个靶点进行具有AlphaFold结构的虚拟筛选来量化这一点,这些靶点包括没有配体结合的蛋白质、与配体结合的蛋白质以及一组活跃的hit和诱饵。由于AlphaFold2蛋白质结构目前不包含任何配体信息,因此当“开箱即用”时,这些模型会导致许多活跃的hit被错误地归类为诱饵。
不过,如果使用IFD-MD与已知的hit分子对接,我们就能提高AlphaFold模型的性能。IFD-MD是一种基于分子动力学的诱导拟合对接技术,它可以重组蛋白质以适应结合配体。使用这些经过IFD-MD改进的结构进行虚拟筛选计算,结果更加准确。
“重要的是要记住,当不同的药物分子与蛋白质结合时,蛋白质会改变它们的形状,有时甚至会发生相当大的变化。就目前而言,AlphaFold2无法模拟这些非常重要的影响。
问:AlphaFold模型可以用于基于结构的GPCR设计吗?
答:由于某些基于GPCR的2型糖尿病和肥胖症药物最近取得了爆炸性的成功,因此GPCR目前特别受到药物发现行业的关注。然而,GPCR活性位点的复杂性和固有的可塑性带来了独特的挑战。在预测正确的配体结合模式以及在计算预测和实验数据之间建立稳健的相关性、以推动GPCR的前瞻性设计方面,存在着几个关键的障碍。
在我们的研究中,我们想看看AlphaFold在该算法从未见过的靶点上的表现如何。我们特别选择了那些既没有公开实验结构,也没有近似同源实验结构的制药靶点--要求AlphaFold建立一个与已有模型相似度高达95%的蛋白质模型是没有意义的。
为了完善用于前瞻性设计的GPCR AlphaFold模型,我们采用了两种基于物理学的技术:IFD-MD(将配体灵活地对接到结合位点)和 FEP (我们基于自由能扰动的计算结合亲和力测定),以对模型提出定量挑战。IFD-MD是必要的,因为对于任意配体系列来说,AlphaFold模型完美无缺的可能性接近于零。蛋白质在配体存在的情况下发生改变(诱导拟合)是极为常见的现象;因此,单一结构几乎不可能涵盖受体在所有紧密结合化学物质下的全部构象。高分辨率晶体结构如此,AlphaFold的蛋白质结构也是如此。
在利用我们的物理工具完善AlphaFold模型之后,我们能够在预测和实验配体活性之间显示出很强的相关性,达到了与晶体结构相当的精确度水平。我们的研究结果表明,一旦应用基于物理的技术对AlphaFold模型进行了适当的改进,它们就可以用于基于结构的GPCR设计。
问:您是否在薛定谔自己的发现项目中使用了AlphaFold和这些完善技术?
答:我们正在以一些有趣的方式使用AlphaFold。在我们的MALT1项目中,结合位点的结构存在很大的不确定性,这给开发FEP 模型以准确预测分子核心和可变区域的修饰带来了挑战。为了应对这一挑战,我们使用了AlphaFold结构的一部分来重建缺失区域,并解决其中一个实验结构的不确定性。最终,利用机器学习对各种FEP 方案进行的大规模评估确定,由AlphaFold提供循环的模型表现最佳。这使我们能够更准确地使用FEP 来预测哪些新化合物值得我们花大价钱进行合成。
问:这些改进AlphaFold结构的进步对药物发现的未来意味着什么?
答:在蛋白质从头折叠的有限范围内,AlphaFold模型的准确性与历史上使用其他技术获得的准确性相比确实非常出色。但是,必须牢记的是,当不同的药物分子与蛋白质结合时,蛋白质的形状会发生变化,有时甚至会发生很大的变化。目前,AlphaFold2无法模拟这些非常重要的影响。因此,重要的是要将AlphaFold结构视为建模活动的起点,在此基础上,科学家们可以利用少量数据(20-30种配体)和结合位点知识来完善和验证结构,使其达到推进发现项目所需的精确度。
据我们所知,只有本文介绍的基于物理学的方法才能将如此有限的数据提炼成与实验具有竞争力的模型,并适合未来使用。而在一个活跃的药物项目中,前瞻性地使用像这样生成的结构是最终的考验。我们设想这是药物发现的未来--基于结构的药物设计,利用计算结构预测分子的靶向(on target)效应和脱靶(off-target)效应。