2021年9月14日,Nature Reviews Drug Discovery杂志发表文章,多位专家探讨了AlphaFold对于药物发现的意义。
以下是全文内容。
AlphaFold和RoseTTAFold为蛋白质结构预测带来了革命性的进展,但就目前而言,对药物发现的影响更多是渐进式的。
这封邮件来得很突然,标题只是"会议邀请"。但DeepMind的John Jumper在打开它时却松了一口气。经过几个月对CASP14(一个两年一度的仅根据氨基酸序列预测蛋白质结构的竞赛)的紧张关注,结果已经很清楚了。他的小组"表现得非常好......无论是相对于其他小组还是在绝对的模型准确性方面",会议组织者写道。
CASP,即结构预测的关键评估竞赛(Critical Assessment of Structure Prediction),于1994年启动,是对蛋白质结构的计算预测进行基准测试的一种手段。长期以来,各团队一直在为取得像样的结果而努力。谷歌的子公司DeepMind在2018年加入了这一行列,并在同行中名列前茅。2020年,其AlphaFold2在竞争中取得了胜利。
由于COVID的限制,Jumper在一次视频电话会议上与他的团队分享了这个好消息。那是一个比大多数消息都要好的消息,你可以看到人们的眼睛亮了起来",他回忆说。
现在,DeepMind在《Nature》杂志的两篇论文中公布了其方法的细节,并发布了其源代码供其他人探索。与EMBL-EBI合作,它已经发布了超过35万种蛋白质的预测结构,供所有人使用。受到AlphaFold预测能力的启发,华盛顿大学的David Baker及其同事开发了一种名为RoseTTAFold的替代方法,它也能准确地预测蛋白质结构。
药物开发人员和其他人员正急切地拿这些方法来做试验。
"毫无疑问,这些方法在生成蛋白质结构模型方面取得了巨大的飞跃。他们使每个人都能成为结构生物学家,这非常有趣"。默克公司的发现、临床前和转化医学部主任、基于结构的药物设计先驱Fiona Marshall说。
她和其他人发现,这些程序简化了药物发现工作流程的某些方面。例如,它们可以使实验方法解决结构问题变得更加容易。在前端,促进形成晶体的稳定蛋白质结构的设计,在后端,帮助理解X射线数据。Marshall说:"这样,虚拟世界和实验世界之间会有一个非常好的协同作用"。
但是在准确预测活性位点方面的不确定性,仍然是一个关键的限制,正如无法定义程序将要预测蛋白质的哪个构象状态一样。
Marshall说:"在可能的情况下,我们仍将尝试获得与蛋白质结合的配体的共晶结构,以进行基于结构的药物设计。这曾经是一项为期3-4年的工作,而低温电镜已经帮助我们在几个月内实现了对某些类型的未解决蛋白质的研究"。
Dewpoint Therapeutics公司的董事会成员和战略顾问、Relay Therapeutics公司的联合创始人Mark Murcko补充说,在更长远的未来,还有很多希望。他说:"AlphaFold已经打开了一个工具箱,并向全世界展示了可能的东西。现在我们将有几十个实验室,每个实验室都在思考稍微不同的问题集"。这些问题包括预测蛋白质-配体结构、变构口袋(allosteric pockets)的可药性、蛋白质-蛋白质相互作用和RNA靶点,以及设计疫苗免疫原和新的治疗性蛋白质"。
"科学上的任何成功都会立即让你觉得好吧,这很好。我们接下来要做什么?我们如何在此基础上继续发展?" Murcko说。
口袋预测
DeepMind的进步得益于蛋白质数据库(PDB),这是一个开放的实验解决结构库。PDB成立于1971年,现在包括超过18万个条目,涉及大约10万种独特的蛋白质。DeepMind与CASP竞赛的其他团队一样,将这些已解决的结构作为其深度学习系统的训练集。通过利用计算专长和巨大的计算能力,DeepMind开发了模式匹配神经网络系统,该系统现在已将蛋白质结构预测推向了主流。
在氨基酸残基层面,这意味着AlphaFold对人类蛋白质组中36%的残基的位置预测具有"高置信度",对另外22%的残基的位置预测具有"置信度"。在每个蛋白质的层面上,对人类蛋白质组中44%的蛋白质序列,它对至少75%的预测是有信心的。
这是对现状的一个巨大改进。一项分析发现,在AlphaFold之前,实验和其他建模方法对47%的人类蛋白质组提供了有用的结构性见解。AlphaFold将这一比例提高到75%。过去有4832个人类蛋白质没有结构信息,而AlphaFold将这一数字降低到29-1336个(令人困惑的蛋白质),这取决于有用性阈值的设置。
Schrödinger公司的首席生物医学科学家Karen Akinsanya说:"总的来说,我们非常兴奋,因为我们将有机会获得更多的蛋白质结构"。
但是药物猎手们特别关注蛋白质的特定部分:小分子可以结合的活性和变构口袋。因此,他们的问题是,对这些区域的预测有多可靠?
加州大学旧金山分校的化学家和虚拟药物筛选者Brian Shoichet说:"从某种程度上说,我真的印象深刻。他对预测结构和已解决结构的初步比较表明,AlphaFold和RoseTTAFold在整体折叠方面表现得"非常好",但是当涉及到结合位点时,情况就比较复杂了"。
关键是,蛋白质的活性位点往往会打破"蛋白质折叠规则",因为它们必须足够灵活以结合一个或多个配体,而这些配体并不总是存在。例如,它们往往不像蛋白质的其他部分那样包装良好。这些规则可以被打破的原因是,蛋白质的其他部分折叠良好。Shoichet说:"而这使得活性部位很难被这些预测方法所利用"。
他说:"业界仍然处于需要试用的阶段,看看它有多大用处"。他补充说,这可能对某些蛋白质家族更有帮助。
北卡罗来纳大学的药理学家和GPCR专家Bryan Roth甚至更加谨慎。他的实验室将AlphaFold和RoseTTAFold预测叠加到20个尚未在PDB中的GPCRs的实验解决结构上。"在大约50%的情况下,它是相当好的。而在大约50%的情况下,就我所知,它不是特别有用,当然,问题是你不知道你的结构是在哪50%中"。Roth说。
在这项分析中,AlphaFold内置的置信度指标并不能预测成功。
"对于我的项目来说,它是没有用的。它不会改变我们做事的方式",他补充说。"只要一个结构。这就是我们正在做的事情"。
对于Roth和Shoichet来说,需要进行前瞻性的验证实验来真正了解这些方案的效用。为此,合作者计划针对一组已被实验解决和计算预测的新型活性位点,进行数以亿计的虚拟配体的超大型计算筛选。然后,他们将购买前几百个hit,在实验室中测试它们的活性,并比较成功率。
"通过回顾性研究,你可以说服自己的任何东西,但你需要前瞻性的测试",Shoichet说。
盯着结构上尚未解决的新靶点的药物猎人可能会采取一种更基于项目的方法。AlphaFold预测提供了"一个完全合理的起点",Murcko说,只要团队能够提供其他结构上的见解,并充分利用基于物理学的分子动态模型,在进展之前完善活性部位的细节。
我个人认为,这是一个很好的开始方式。他补充说:"我们将不得不从实践中了解,哪里的结构最准确和最不准确"。
运动的部分
在某种程度上,预测的效用将取决于它们产生的结构的构象状态。毕竟,蛋白质在细胞中是运动的。然而,单个X射线结构和预测都只是捕捉到了可能性的一个状态。
在诸如Relay这样的公司,研究人员正专注于了解蛋白质运动如何创造药物发现机会。能够可靠地促进这项工作的预测算法将加快工作进度。
Murcko说:"想象一下,我们不仅能够说出某个蛋白质是如何折叠的,而且还能非常密切地关注某个氨基酸,它靠近催化部位,可以以几种不同的构象存在,这将是这些算法的下一个发展水平"。
AlphaFold和RoseTTAFold还没有达到这个水平。相反,它们甚至还不能区分一个蛋白质的"活性"和"非活性"构象。相反,"当前版本的AlphaFold给你的是它认为最可能出现在PDB中的结构",Jumper解释说。
他补充说,当涉及到虚拟筛选工作时,这可能是一个问题。研究人员希望在蛋白质的活性、配体结合的构象上进行对接实验,而当前版本的AlphaFold经常返回一个具有空口袋和错位侧链的非活性状态。
"我们的感觉是,如果你有一个非常高置信度的预测,分子对接可能值得一试,但总的来说,我们预计在这成为一个可靠的程序之前,还需要有更多的工具开发出来"。DeepMind的Kathryn Tunyasuvunakool在最近一次关于如何解释AlphaFold结构的EMBL-EBI网络研讨会上说。
处于构象尺度极端的蛋白质(那些具有可采用多种形状的软性内在无序区域的蛋白质)甚至更加麻烦。这些区域可能具有重要的活性,包括在被称为生物分子凝聚物的瞬时无膜细胞器的形成和溶解中。但是AlphaFold在预测这些区域的结构方面得分特别低,这是有原因的,因为用传统的晶体学方法很难确定这些区域的特征。
在Dewpoint,一家处于生物分子凝聚物生物学前沿的生物技术公司,研究人员正在探索他们是否能将这一弱点转化为一种优势。低置信度预测可能有助于确定内在无序区域的位置,这是研究其生物学的一个关键步骤。Murcko说:"这就像一个独立的检查步骤,检查一个蛋白质的哪些区域实际上是无序的,Dewpoint对了解这种方法(可以告诉我们关于蛋白质的无序区域的情况)特别感兴趣"。
其他人也是如此。EMBL的Bálint Mészáros在EMBL-EBI网络研讨会上指出,有时AlphaFold可以识别内在无序区域的功能点,并预测其复杂结构。
更长的愿望清单
更好的活性位点的准确性和构象控制,肯定会使这些预测程序对药物猎人更有用。但深度学习爱好者们希望这些系统有一天能有更大的转变。例如,也许有一天它们可以被用来可靠地预测蛋白质-配体相互作用的结构。
Murcko说:"如果我们能够破解蛋白质-配体问题,这将立即改变药物发现的世界。这很值得花时间"。
不过障碍是巨大的。
首先,AlphaFold是在蛋白质数据库中超过17万个结构上训练的。但其中许多并没有与生理上相关的配体结合。训练集规模的减少将降低由此产生的预测的准确性。
更有问题的是,蛋白质是用标准的20个氨基酸反复构建的--在不同的构件之间可以发生确定的原子相互作用。相比之下,小分子空间是一个巨大的1060个分子,充满了未知的原子学可能性的星系。
"你必须训练一个机器学习模型来预测所有这些配体(或其中相当大的一部分)和一个蛋白质的许多结合点之间的原子相互作用。我认为这是一个巨大的问题"。Akinsanya说。
使问题更加复杂的是,蛋白质可以结合多种配体。那么,它们的结合潜力有多少必须在训练集中得到体现?一个蛋白质-配体结构就足够了,还是需要解决个别口袋与几十、几百甚至几千种不同配体的结合问题?同样地,在数百或数千种蛋白质中是否需要这种深度的数据?
Shoichet说:"我们只是能力不足。对我来说,真的很难想象能达到我们有足够的观察结果的程度"。
一向务实的Murcko专注于接下来的步骤。他问道:问题是,可以做些什么来加速额外数据的沉积?
如果业界能够将他们的结构数据集中起来,这可能会促进进展。那些处于基于结构的药物设计前沿的公司正在积累大量的X射线数据,这些数据并没有被输入PDB。例如,勃林格殷格翰公司在寻找KRAS抑制剂的过程中,现在已经解决了580个KRAS与不同配体结合的结构。勃林格殷格翰公司在奥地利的研究基地负责人Darryl McConnell说:我们在一两个小时内就解决了共晶体,他正在开发一种 "X射线优先"的药物化学方法。
这种数据集是BI在KRAS领域的竞争优势,但来自传统项目的大量已解配体结合结构被锁在整个行业的内部数据库中。
McConnell说:"这是一个机会,也许有必要建立一个PDB plus"。
Baker希望这样的努力能够继续。他说:"如果这些数据集被提供出来,那么很可能有足够的数据来解决蛋白质配体问题"。
这个数据集也可能帮助未来的算法更好地预测感兴趣的蛋白质的配体结合构象。
工业界愿望清单上的其他功能包括预测蛋白质-蛋白质、蛋白质-DNA和蛋白质-RNA复合物结构的能力,以及预测点突变影响的能力。
其中一些可能会比其他更早出现。AlphaFold没有被明确地训练来预测蛋白质-蛋白质相互作用的结构,但Baker的工作表明这是可能的。作为RoseTTAFold的案例研究,他的团队预测了IL-12细胞因子与IL-12受体结合的结构,这是确定干预互动方式的关键一步。
小分子药物猎手和新的治疗性蛋白质设计者可能能够利用这些见解。"领先的新蛋白质设计者Baker说:"我们现在肯定在做很多这样的工作。
几年前,Baker的实验室设计了一种IL-2/IL-15的从头模拟物,被许可人Neoleukin Therapeutics公司已经将其推向了临床。但识别出能按预期折叠的新候选物仍然是限制研究速度的步骤。他的团队正在评估新的折叠预测算法是否能降低这一实验开销。"几个月后再问我,我们期待着成功率的大幅提升",他说。
深度问题
DeepMind在启动了这些可能性之后,尚未披露其深度学习系统的研究或商业计划。但它正在考虑自己的选择。"我们的很多时间确实都集中在把这个东西拿出来。但我们现在正在进行总结,并试图真正确定我们的方向和未来的方向,我们不会把我们的玩具打包回家"。Jumper说。
DeepMind的研究主管Pushmeet Kohli补充说,甚至可能已经有足够的数据来承担一些更雄心勃勃的应用。"需要多少数据是一个有点棘手的问题,因为这取决于你的机器学习模型"。
如果未来的模型能够被传授物理和化学的知识,它们可能还能提供更大的结构生物学效益。
这个机会,再加上进展的速度,甚至从实验者那里激发了乐观情绪。Marshall说:"看到这个领域前进的速度如此之快,真是令人激动。鉴于从第一个AlphaFold到AlphaFold2的发展轨迹,我预计在未来2-5年内会有很多快速发展"。
参考资料
Mullard A. What doesAlphaFold mean for drug discovery? Nat Rev Drug Discov. 2021Oct;20(10):725-727. doi: 10.1038/d41573-021-00161-0.
----------- End -----------