Nat Rev Drug Discov|人工智能何时可以带来药物发现的成功

2024-03-05 17:54:43 浏览数 (1)

2024年2月21日,Nature Reviews Drug Discovery发表文章When can AI deliver the drug discovery hits,文章总结了CACHE竞赛的主要成果。

CACHE的介绍参见本公众号文章 对标CASP,工业界和学术界发起CACHE挑战,弥合分子发现和计算设计之间的差距

小分子药物发现领域的人工智能革命令人期待,但目前为止,其发展路径仍然比较模糊。虽然很多生物制药公司宣扬人工智能在小分子药物发现领域的前景,但却很少公布他们正在做什么以及进展如何的细节。学术团体更加开放,但往往缺乏资源来严格验证他们的技术或面临的障碍。

日前,CACHE(Critical Assessment of Computational Hit-finding Experiments)竞赛的首批结果公布,结果显示,参赛者们在目标上取得了进展。

多伦多大学结构基因组学联合会(Structural Genomics Consortium)的计算化学家兼CACHE协调员Matthieu Schapira说:"CACHE揭示了计算寻找hit的技术水平。几年后,当我们回过头来看,我们会称这是石器时代的艺术。"

23个研究小组预测了2000多种化合物,他们希望这些化合物能与LRRK2的WD40重复(WDR)结构域结合。在实验室对这些小分子进行测试时,只有不到12个小分子能真正进入WDR口袋。Schapira说:“我们的命中率不到1%,它们的结合亲和力从20到70微摩尔不等。”

加州大学旧金山分校的虚拟对接专家Brian Shoichet说:“困难源于该领域对LRRK2的WDR结构域知之甚少。它没有已知的结合体,目前最好的晶体结构显示出一个大的空口袋,没有明确的配体-蛋白质相互作用点(图1)。”

图 1 LRRK2靶点

CACHE的意义并不在于找到优胜者,而在于加速整个领域的发展。

支持这项挑战的非营利组织Conscience的首席执行官Ryan Merkley说:“我们被炒作所淹没,需要就我们正在使用的工具以及它们的有效性进行更开放的对话。我们改进的唯一途径就是开始分享我们的成果,互相为工具设定基准,并互相讨论如何迭代和改进这些流程。”

计算hit

CACHE以蛋白质结构预测关键评估(CASP)挑战赛为蓝本。CACHE最初由结构基因组学联合会组织,旨在帮助这一领域克服前进道路上的重重障碍。

在第一项挑战赛中,23个团队报名预测能与LRRK2的WDR结构域结合的配体。参赛者使用自己选择的计算方法预测了100种可能击中靶点的化合物。然后,在实验室中测试了它们的活性,并对结果进行了评分。确定了感兴趣的化合物的小组被邀请提出另外50种类似物,并再次进行测试。所有结果都已向公众公布,但参赛者可以选择匿名。

对于CACHE,一个由五人组成的"hit评估委员会"负责评估研究结果。委员会成员、Relay Therapeutics首席数据官Pat Walters说:“命中率在某种程度上取决于观察者的眼光,不同的人会有不同的看法。尽管命中率很低,表现最好的药物效力也很差,但仍有七个团队提出了一些具有足够好的结合谱和类药物特性的多样化小分子。这些研究成果是"很好的开始",我们正在逐步改变和改进,但第一次并没有带来惊天动地的成果。”

没有参与CACHE的Schrodinger研发总裁Karen Akinsanya补充说:“准确性高于数量和效力。如果你的结构和结合模式准确,命中率低并不是坏事。WDR的起始结构是否代表了其生物相关形式的足够好的模型,可能取决于这些命中率。”她最近在Cell杂志上写道,弄清楚结构(无论是已解决的还是预测的)何时可以用于虚拟筛选仍然是该领域的当务之急。

人工智能能带来什么

CACHE的参与者们利用的是已经深入许多药物研发机构的技术。得分最高的团队使用了基于药理的方法,找出小分子与口袋相互作用的特征;超高通量对接,快速测试口袋中数十亿种化合物的适应性;分子动力学和自由能计算,仔细观察特定小分子如何与靶点相互作用。

在排名靠前的模型中,有六个使用了某种形式的新一代机器学习。圣犹达儿童研究医院的Christoph Gorgulla是个例外,他使用了一套名为VirtualFlow的经典计算药物发现工具,进行了一次超大规模的对接实验--从14亿个化合物库中寻找结合剂。

计算化学空间是相当巨大,以至于将每一种化合物都对接到口袋里仍然是一项挑战。有几个团队正在尝试将人工智能作为一种加速器来挑选要对接的化合物,但VirtualFlow 1.0使用大量CPU来高效并行对接。(第二代VirtualFlow 2.0调查了更大的690亿个化合物,并依靠预定义的"采样"策略来集中计算能力)。一些参与团队还利用人工智能提出了评分函数,对对接化合物与靶点相互作用的程度进行排名,但在Gorgulla的手中,经典方案仍然最有效。

Gorgulla说:“我们得到的一个启示是,经典方法仍然可以赶上基于人工智能的方法。”

默克首席科学家Lukas Friedrich补充:“CACHE优胜者的大部分计算能力都用于已有的计算药物发现工具。基于药理的筛选和超高吞吐量对接已经提供了解决方案。问题是,我们是否需要在流程的每个阶段都采用真正复杂、先进的人工智能技术?答案很可能取决于具体情况。我们不可能为每个目标找到普遍适用的解决方案。”

方案的目的也很重要--不同的工具可能对小分子发现或优化过程的不同方面有用。Friedrich和默克计算药物设计主管Christina Schindler将对接与名为REINVENT的生成模型相结合,设计出了全新的分子,然后通过相似性搜索在Enamine上找到了可购买的化合物。

Schindler表示:“默克已经在先导优化计划中使用了这种生成方法,并希望在发现新药时也能使用这种方法。有机会了解不同技术在不同情况下的效果是CACHE的吸引力之一。我希望我们能了解什么时候虚拟筛选成功的可能性最大。”

Ctrl alt delete

未来几轮CACHE将挑战具有不同性质、结构起点和化学物质基线的目标。还有三项挑战正在进行中,另一项已经宣布,其他挑战也在酝酿之中。

挑战二和挑战三是寻找SARS-CoV-2的NSP13螺旋酶和NSP3宏域的结合点。

第四项挑战专门针对CBLB的TKB结构域。CBLB是一种E3泛素连接酶,由于这些酶在靶向蛋白质降解中的作用,因此成为业界投资的重点。参赛者可以获得通过实验解决的CBLB晶体结构和数百个结合体的数据。

LRRK2挑战赛的参赛者大多是学术团体,但CBLB挑战赛的参赛者中有近50%是生物技术公司。

Schapira说:“情况似乎正在发生变化。"我不知道这种趋势是否会持续下去,或者它只是与我们提名的不同类型的目标有关。CACHE能够吸引的参赛者类型越多越好。”

最近宣布的第五轮比赛重点关注MCHR1,这是一种参与睡眠、焦虑、抑郁和学习的GPCR。参赛者将获得约3500种化合物的数据,这些化合物对该靶点的效力从低纳摩尔到高微摩尔不等。MCHR1是第一个没有通过实验解决蛋白质结构的CACHE目标--这迫使参赛者尝试不同的方法来寻找命中目标。

以配体为基础、依靠现有结合数据的方法将大放异彩,结构预测工具也是如此。Shoichet说:“我猜这将是测试AlphaFold或RoseTTAFold的新舞台。”

研究人员仍在努力了解如何在药物发现中最好地利用预测的蛋白质结构。在迄今报道的大多数研究中,使用晶体结构的虚拟筛选似乎仍然优于依赖预测结构的虚拟筛选。但Shoichet及其同事最近在bioRxiv上报告说,基于AlphaFold的筛选至少在两种GPCR蛋白质上具有优势。

据报道,σ2受体的虚拟筛选命中率为51-54%,5-HT2A受体的命中率为23-26%。经证实的命中率高于第一次CACHE挑战赛的命中率。

Shoichet说:“如果小心谨慎,AlphaFold结构可以成为虚拟对接的绝佳模板。他推测,AlphaFold可能会采样一组不同的蛋白质构象,而不是已解决的晶体结构,从而导致不同的结合可能性。”

Walters说:“这是我去年看到的最令人兴奋的成果之一。但药物发现的意义不仅仅在于结合。计算方法还不能可靠地预测小分子是否可溶。人工智能还无法解决预测的药物是否能在实验室中制成、是否能穿过细胞膜、是否会产生脱靶作用等问题。药物发现是一个多参数优化问题。实际上,我们正试图找到具有整体性的东西。”

Schapira说:“这终将到来。我们正准备取得突破,有些生物技术公司说突破已经发生。有些人说还有几个月,我认为这需要几年的时间。”

参赛者们将于三月份在多伦多举行的研讨会上讨论从第一次挑战中吸取的经验教训。

帕金森进展

第一轮CACHE成果也可能带来较小的收益。迈克尔-福克斯基金会(MJFF)支持了第一项挑战,将研究小组指向了LRRK2的WDR结构域,因为它在帕金森病中起着重要作用。已经有公司瞄准了LRRK2的激酶结构域,但WDR结构域的小分子结合剂仍然难以捉摸。

对于MJFF的联席首席科学官Brian Fiske和转化研究高级副主任Luis Oliveira来说:“CACHE的结果表明,这些候选药物指日可待。CACHE竞赛取得了令人鼓舞的初步结果,证实了LRRK2 WDR结构域是可以药物治疗的。”Fiske和Oliveira在一封电子邮件中写道:以WDR结构域为靶点为LRRK2治疗管线的多样化提供了机会。

Merkley希望这些结果能促使制药公司重新审视LRRK2。他的团队目前正在考虑挑战赛中出现的新发现的可能发展路径。他说:“至少有一个靶点让人们非常兴奋。”

参考资料:

https://doi.org/10.1038/d41573-024-00036-0

0 人点赞