榕树集–大规模分子对接指南

2023-11-22 17:00:38 浏览数 (1)

本周介绍一篇用于指导大规模虚拟筛选(docking)的protocol

摘要

基于结构的大型化合物库对接筛选已经成为早期药物的常见方法。随着计算资源的增加和化合物库的扩大,对数亿甚至数十亿化合物进行筛选已经成为中小规模计算机集群的可行选择。在这里,作者概述了大规模对接之前进行靶点对接参数的评估策略,以及给予了一个基于褪黑素受体筛选的实例,获得的化合物活性在subnanomolar范围。并且提供了一些额外的参考因素用于确保hits的特异活性。虽然本文使用DOCK3.7进行对接,但是提供的策略和建议对于其余的对接软件也是适用的。

简介:

使用虚拟化合物库的方式来探索化学空间是一条非常诱人的道路。在virtual library中,可以枚举大量分子,达到数百亿,甚至更多。当然由于时间,成本和存储的限制,实际合成的分子数目可能较少。这种想法的限制就是:(1)虚拟库很少被设计用于确保化学合成性。(2)对于对接来说,如何在如此庞大的化学空间中pick出真正的hits,也是非常令人担忧的。

然而,在过去的几年里,至少在某种程度上解决了上述的两个限制因素:

  1. 首先,供应商和学术实验室推出了基于相对简单的两组分或三组分反应的“on-demond”化学库,其中化学品易于合成春华。Enamine是这一领域的leader,超过140种反应,超过120,000种building block,形成了一个非常多样化且实用的分子库,其目前包含超过290亿种分子(2021年)。
  2. 其次,尽管基于结构的分子对接存在着问题,但已经证明它可以对这些超大型化学库进行排序(即便不是在数百亿分子的水平上,也是在0.1至1.4亿分子的水平上,找到了活性较高的选择性较强的分子)。事实上,实验证明,随着库规模的扩大,对接结果和湿实验结果都有着提高。

其次,尽管结构基于分子对接存在问题,但已经证明它能够在这些超大型图书馆中进行优先级排序,即使不是在数百亿分子的水平上,也是在0.1至1.4亿分子的水平上,找到了对几个不相关目标具有异常强效和选择性的分子(表1)。事实上,模拟和概念验证实验证明,至少目前而言,随着图书馆规模的扩大,对接结果和实验分子功效都得到了改善。

为了在中等规模计算机集群上(例如,500-1,000个核心)进行筛选,对于十亿分子的库而言,该计算必须不超过1s/mol/core的时间。

这种对速度的需求意味着计算并不能达到化学精度。例如,对接通常对构象状态进行欠采样,忽略一些比较重要的项(例如,配体应变))。所以,该方法甚至无法对大型化合物库的分子进行可靠排序。然而,它所能做到的是从大量不太可能与靶标结合的分子中分离出极少数的合理的配体。

Table 1: 一些大规模筛选的实例

基于结构的药物虚拟筛选的一般性原则

Fig. 1: 大规模筛选流程.

对接前的结构准备

  • 构象:虚拟筛选的起点通常是一个高分辨率的配体结合的复合物结构,其优先级高于无配体(Apo)的结构。如何没有可用的结合构象,可以使用SphGen、SiteMap和FTMap来识别潜在的结合位点。
  • 口袋:一般来说,小而封闭的结合口袋,通常比大型、平坦且暴露于溶剂的蛋白质-肽或蛋白质-蛋白相互作用的结合位点表现得更好。
  • 突变氨基酸。出于稳定性、结晶和其他生化原因,高分辨率蛋白质结构有时存在一些突变;这些突变如果位于口袋里,则应该被还原到野生型。
  • 侧链缺失:同理,如果在口袋位点存在侧链缺失,同样应该加以补充。
  • 水分子:若存在口袋中,通常水分子应该加以考虑,有些对接程序允许在对接中考虑水的存在。
  • 缓冲成分。应予以去除。
  • 辅因子。如果辅因子如血红素或金属离子参与配体识别,则应予考虑。
  • 氢原子。可以使用Reduce(DOCK3.7的默认),Maestro(Schrödinger),PropKa或Chimera等程序来进行质子化。
  • 蛋白建模:使用AF2或者其余同源建模软件进行建模。

对接前控制

1. Ranking Power:可以使用DUDE构建诱饵数据集来测试对接的准确率。

2. Pose Accuracy:可以通过肉眼观察,对接配体和受体之间的相互作用或者直接计算RMSD等等指标来评估其POSE的准确率。

Fig. 2: 活性分子富集率.

前瞻性筛选

一旦前期准备完成,就可以进行大规模的分子虚拟筛选。在进行这次虚拟筛选时,最好关注那些可以方便进行测试的化合物。

  • ZINC20数据库(http://zinc20.docking.org/)列举了超过140亿种商业可获得的化学产品,其中约有7亿3D构象库可直接用于对接。ZINC20允许用户预先选择分子子集进行对接,从而减少计算时间。
  • 大多数枚举化合物属于Enamine和WuXi的on-demond库。

Hit-picking

在10亿分子级别下,即便只是考虑0.1%,仍然存在100万分子,并且由于对接中固有误差,其中许多分子可能是假阳性。因此,我们很少直接选择对接排名靠前的N个化合物进行实验测试,而是增加一些额外的筛选器在排名靠前的30万到100万分子中识别hits。这些筛选可以捕捉对接打分中忽略掉的特征,确保差异性,并保证多样性。

一些筛选列举如下:

名称

解释

对接得分

对接得分是相互作用能量的近似值,因此不能用于命中的绝对排名。其主要目的是从大量不太可能结合的化合物中识别可能结合的化合物。

破损分子

在3D构建中的错误可能导致错误的化合物。常见的错误包括由于难以预测pKa而导致的不正确的互变异构或质子化状态。这种“破损”的分子在视觉检查中应该被降低优先级

内部应变

通常,内部应变不包括在能量函数中,但它是一个重要的问题,因为如果配体采用增加与受体的接触的应变构象(例如非平面酰胺),则可能得分很高。视觉检查可以捕捉到这些有应变的化合物,但也已经开发了各种工具,用于系统地分析数百甚至数千个化合物,使它们在这种情境中非常有用。作者最近提出了一个基于实验的Cambridge结构数据库中的扭转构象分布估算扭转应变能的计算工具。https://www.nature.com/articles/s41596-021-00597-z#ref-CR130)

相互作用模式

与关键残基的特定相互作用是有希望的候选物的主要特征。配体和侧链之间的氢键可以通过简单的距离截断(<3.5 Å)进行计算识别。类似地,药效团筛选器可以用于搜索较大结合口袋内的未探索亚口袋中的任何原子。得分很高但只形成一个关键相互作用的分子可能会被降低优先级。

未满足的氢键供体和受体

带着未被满足的氢键供体或受体的分子,特别是在位点的疏水区域,通常需要付出较高的desolvation成本;并非所有的打分函数都被设计成明确过滤掉这些成分。因此,作者建议将分子中未满足的受体数保持在3以下,未满足的供体数保持在1或以下,因为埋藏供体可能会比埋藏受体产生更大的惩罚。

新颖性筛选器

使用按需制备的化学库进行大规模对接的优势之一是筛选出新颖的化合物。因此,如果项目的目标是识别用于命中的新颖支架,则有必要过滤掉与已知活性相似的hits。在实验中,作者通常移除与已知活性化合物的ECFP4 Tanimoto距离为0.35或更高的hits。

支架聚类

从初始对接筛选中,应选择一组多样的分子骨架进行实验测试,以覆盖更大的化学空间子集。

后续都是湿实验方面以及使用DOCK3.7进行对接的实例操作,有兴趣可以看原文。因为主旨已经在上方说明,不再赘述以下内容。

参考

Bender, B.J., Gahbauer, S., Luttens, A. et al. A practical guide to large-scale docking. Nat Protoc 16, 4799–4832 (2021). https://doi.org/10.1038/s41596-021-00597-z

0 人点赞