Nat Struct Mol Biol｜结构引导的药物发现：回到未来

2024年3月14日，来自加拿大多伦多大学的Cheryl H. Arrowsmith在Nature Structural & Molecular Biology发表评论文章Structure-guided drug discovery: back to the future。

在过去的30年里，结构生物学领域及其相关的生物学研究取得了惊人的进展。本文讲述了该领域的几个里程碑，以及如何运用过去的经验走向令人兴奋的未来，尤其是在药物发现方面。

1994年，当我在Nature Structural Biology上发表我的第一个三维（3D）结构--p53 四聚体结构域的核磁共振结构--时，我从未想到今天几乎所有独立折叠的蛋白质（或其结构域）都能被高精度地预测出来，而且大型分子机器和多蛋白复合物可以通过低温电子显微镜（cryo-EM）和透射显微镜进行原子细节成像。我的研究生涯从一次一个蛋白的结构生物学研究，到一次多个蛋白的研究（结构基因组学），到了对高通量结构引导药物发现的渴望。

我在这里总结了一些经验，并展望了分子生物学、结构生物学、计算生物学和化学生物学领域交汇的美好未来。

开放科学、数据共享和透明度的发展与价值

在20世纪90年代的前基因组时代，结构生物学家通常研究的是同一小部分蛋白质，这些蛋白质（1）已知并已测序；（2）足够小，适合早期的核磁共振和 X 射线衍射技术；（3）可以重组生产。除此之外，还有一种可以理解的需要，即研究"热门"蛋白质（如 p53），这是由其他人的生物和医学研究决定的。由于高分辨率结构在当时非常新颖，每一个新结构都是一个令人兴奋的启示，研究人员并不希望在这些出版物中包含相关的功能研究。当时这一领域的弊端是，科学家们争先恐后地破解生物学家发现的每一种新"热门"蛋白质的结构。尽管蛋白质数据库（PDB）是公开共享三维结构数据的先驱，但当时并没有要求将结构坐标或相关数据存入PDB，而且除了那些开发用于数据收集和分析的方法和软件的人之外，共享方法和数据并不常见。

时间回到2000年左右的早期基因组时代。基因组学界对我们的工作产生了深远的影响，不仅揭开了具有未知三维结构和功能的编码蛋白质的新世界，而且同样重要的是，在我看来，建立了数据共享和开放科学的风气。期刊开始要求将结构和"组学"数据存入相关数据库，这使得获取这一新知识的途径更加民主化。结构生物学家不再局限于蛋白质领域中的一小部分，结构基因组学的概念应运而生。从解决新的蛋白质折叠问题以便最终对所有蛋白质进行计算建模，到在PDB中填充药物靶标的结构以促进药物发现，再到提供细胞信号和疾病通路的结构注释，许多计划都是为了实现不同的目标而启动的。所有这些计划的共同目标是开发蛋白质生产、自动化以及数据收集和分析方面的技术，以加快结构确定的速度。结构基因组学团体还奉行开放科学原则，往往在结构发表之前就将其放入PDB，并合作制定了在PDB和出版物中存放相关数据的标准和要求。

在整个21世纪初，该领域取得了长足进步，使我们能够解决越来越难的蛋白质和生物学问题。PDB中的结构数量呈指数级增长，结构生物学也日益成为理解生物系统分子方面不可或缺的一部分。有趣的是，出于需要，结构生物学家正在成为生产和鉴定纯化蛋白质的最熟练科学家。这些进步对制药和生物技术领域的影响尤为明显。

蛋白质科学助力化学生物学

到2010年代，PDB充满了已知和假定药物靶点的结构--有些在多年后才被确认为药物靶点。候选药物靶点的结构已不再是大多数情况下无法支持药物发现计划的"姗姗来迟"，结构驱动的药物发现越来越普遍。此外，化学探针等药理学工具是研究和了解生物与疾病通路的最有影响力的试剂之一，而开展化学探针或药物发现项目（合成化学除外）所需的大部分资源都是结构生物学研究的副产品：蛋白质表达和纯化方案及试剂，以及通常用于表征蛋白质系统的生物物理、酶和细胞测定。

认识到基于蛋白质的能力的价值，我们结构基因组学联合会启动了化学探针发现计划，用于发现参与表观遗传、激酶和泛素信号转导的蛋白质，以及我们制药业合作伙伴内部计划捐赠的探针。我们对这些化学工具的选择性和强大的细胞活性进行了严格的鉴定，并将它们作为无担保试剂提供给全球研究界。这些试剂的使用催化了突破性研究，促成了80多项临床试验和临床前项目。

鉴于制药领域的保密和专利倾向，我们的药物化学公私合作的开放科学方面在当时非常不寻常。但我们都意识到，通过共享这些早期药物发现工具，尤其是将抑制特定药物靶点与调节疾病病理联系起来的工具，科学的进步会更快。化学探针作为发现和了解新药靶点的工具所具有的价值，激励我们发起了"目标 2035"--一项在2035年之前为大多数人类蛋白质找到选择性药理调节剂的全球倡议。

蛋白质科学与人工智能

在取得这些进展的同时，低温电子显微镜也逐渐成熟，能够为极其复杂的蛋白质和大分子复合物提供原子级模型，如今它也是分子生物学和药物发现领域的重要工具。过去十年的另一个重要进步是人工智能和机器学习的进步，这与PDB中丰富的公共领域结构相结合，实现了蛋白质科学的圣杯之一：根据序列准确预测三维蛋白质结构，并得到了长期社区基准计划CASP7的验证。

那么，下一步是什么？我相信，未来的前景是光明的，因为在生物学和医学领域，蛋白质和分子结构研究的赋能和利用技术将不断改进。毋庸置疑，如果能获得必要数量的经过精心整理的训练数据以及无偏见的基准和标准，人工智能和机器学习将在创建高效工具方面发挥重要作用。AlphaFold2和类似计划取得成功的一个合理延伸，就是能够预测与特定蛋白质结合的类药物或内源性小分子。

然而，目前缺乏可靠的、经过整理的、公共领域的蛋白质-小分子相互作用数据是实现这一目标的主要障碍。这类实验数据的生成仍然非常具有挑战性，因为它们需要大量的基础设施、专门的实验工作以及以统一的机器可读格式格式化的大量阳性和阴性数据集。虽然ChEMBL和PubChem等公共数据库是值得称赞的资源，但它们往往缺乏阴性数据，而且包含来自不同实验方案的数据，这给比较分析带来了困难。此外，对于蛋白质-小分子相互作用数据和快速增长的冷冻电镜数据，也需要社区开发的数据质量标准和协议来共享海量数据集。我认为，要解决这些问题，还需要一种合作和开放的科学方法，就像基因组学计划一样。

结构生物学家为AlphaFold2铺平了道路，他们提供了大量标准化的、经过整理的、开放存取的数据，并结合CASP基准测试计划。作为一个团体，我们可以为药物发现做同样的事情。由于开放科学和多学科合作的趋势日益增长，我对实现这一目标持乐观态度。例如，我们正在努力生成所需的数据，存储并开放访问机器学习就绪数据（https://aircheck.ai），并为计算寻找新药的进展制定基准（CACHE（计算寻找新药实验的关键评估））。随着这些计划和相关计划的发展，我们可以预见计算方法的最终发展将足够强大，使蛋白质配体的发现在很大程度上成为未来的计算工作。这反过来又将大大加快实现2035年目标的进程，并使我们对人类蛋白质组的了解成为现实。

参考资料：

https://nature.66557.net/articles/s41594-024-01244-3

--------- End ---------

数据机器学习 nat struct 工具

0 人点赞