DeepMind攻破生物学领域50年难题:蛋白质结构预测准确性可达92.4分

2020-12-08 14:17:57 浏览数 (1)

译者 | 刘畅

来源 | Google博客

导语:蛋白质的形状与其功能密切相关,能够预测这种结构可使人们更好地了解它的功能和工作原理,从而突破世界上许多强有力的挑战,如开发疾病治疗方法或寻找分解工业废物的酶等。因此在过去50年里,“蛋白质折叠问题”一直是生物学界的一个挑战。近日,谷歌旗下人工智能技术公司 DeepMind 提出深度学习算法「Alphafold」,破解了这一难题。

蛋白质对于生命非常重要,它几乎支撑着生命的所有功能。它们是由氨基酸链组成的复杂大分子,蛋白质的功能在很大程度上取决于它独特的三维结构。搞清楚蛋白质会折叠成什么形状被称为“蛋白质折叠问题”,在过去的50年里,它一直是生物学界的一个重大挑战。我们的人工智能系统AlphaFold的最新版本已经被两年一度的蛋白质结构预测临界评估(CASP)组织会认可为这一重大挑战的解决方案,是一项重大的科学进展。这一突破彰显了人工智能技术对科学发现的影响,以及它在解释和塑造世界上一些最基本领域上的潜力。

蛋白质的形状与其功能密切相关,预测这种结构的能力可以使人们更好地了解它的功能和工作原理。世界上许多强有力的挑战,如开发疾病治疗方法或寻找分解工业废物的酶,基本上都与蛋白质及其所扮演的角色有关。

“近50年来,我们一直纠结于一个问题——蛋白质如何折叠。看到DeepMind为这个问题找到解决方案,在经历了这么长时间的个人努力之后,经过了这么多的反复尝试,我想知道我们是否能做到这一点,这是一个非常特殊的时刻。”约翰·穆尔特教授,马里兰大学CASP联合创始人兼主席 如此说到。

这是多年来科学研究的一个焦点,使用各种实验技术来检验和确定蛋白质结构,如核磁共振和X射线晶体学。这些技术以及较新的方法,如低温电子显微镜,都依赖于广泛的实验和误差,每种结构可能需要数年艰苦的工作,并且需要使用价值数百万美元的专门设备。

“蛋白质折叠问题”

在1972年诺贝尔化学奖的获奖演说中,克里斯蒂安·安芬森(Christian Anfinsen)提出了一个著名的假设:理论上,蛋白质的氨基酸序列应该完全决定它的结构。这一假设引发了一个长达50年的探索,即能够仅根据蛋白质的1D氨基酸序列来计算预测蛋白质的三维结构。然而,一个主要的挑战是,理论上一种蛋白质在形成最终的三维结构之前可以折叠的方式是天文数字。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,用强力计算法计算出一种典型蛋白质的所有可能的构型需要比已知宇宙年龄更长的时间——Levinthal估计了一种典型蛋白质的10^300种可能的构象。然而,在自然界中,蛋白质会自发折叠,有些在几毫秒之内——这种二分法有时被称为Levinthal悖论。

CASP14评估结果

1994年,JohnMoult教授和Krzysztof Fidelis教授创立了CASP,进行两年一度的盲评估,以促进研究,监控进展,并确立蛋白质结构预测的最新水平。它既是评估预测技术的金标准,也是建立在共同努力基础上的独特的全球社区。关键的是,CASP选择最近才被实验确定的蛋白质结构(有些在评估时仍在等待确定)作为团队测试其结构预测方法的GroundTruth;它们均未提前发布。参与者必须盲目地预测蛋白质的结构,当这些预测变得可用时,这些预测将与基本事实的实验数据进行比较。我们要感谢CASP的组织者和整个社区,尤其是实验人员,其组织架构使得这种严格的评估成为可能。

CASP用来衡量预测精度的主要指标是全距离检验(GDT),其范围为0-100。简单地说,GDT可以近似地认为是氨基酸残基(蛋白质链中的珠子)在离正确位置一定距离内的百分比。根据Moult教授的说法,90 左右的GDT分数被非正式地认为与实验方法得到的结果相似。

在今天发布的第14次CASP评估的结果中,我们最新的AlphaFold系统在所有目标中实现了92.4的GDT总分。这意味着我们的预测平均误差(RMSD)约为1.6埃,相当于一个原子的宽度(或0.1纳米)。即使对于最难的蛋白质目标,那些在最具挑战性的自由建模类别,AlphaFold也达到了87.0 GDT的中位数(数据可在这里获得)。

这些令人兴奋的结果为生物学家将计算结构预测作为科学研究的核心工具打开了大门。我们的方法可能被证明会有助于重要的蛋白质类,如膜蛋白,这些蛋白质很难结晶,因此很难实验测定。

“这项计算工作代表了蛋白质折叠问题的惊人进展,这是生物学界一个有50年历史的重大挑战。几十年前,这个领域的许多人还没有预料到。看到它将从根本上改变生物学研究的许多方面,这非常令人兴奋。”VENKI RAMAKRISHNAN教授,诺贝尔奖获得者、英国皇家学会主席。

蛋白质折叠问题的探讨

2018年,我们首次使用AlphaFold的初始版本进入CAP13,该版本在参赛者中达到了最高的精确度。之后,我们发表了一篇关于CASP13方法和相关代码的文章,这篇文章进一步启发了其他工作和社区开发的开源实现。现在,我们开发的新的深度学习体系结构改变了我们对CASP14的方法,使其能够达到无与伦比的精确度。这些方法从生物学、物理学和机器学习领域获得灵感,当然也包括过去半个世纪以来蛋白质折叠领域许多科学家的工作。

折叠的蛋白质可以看作是一个“空间图”,其中残基是节点,边将残基紧密地连接在一起。这张图对于理解蛋白质内部的物理相互作用以及它们的进化史很重要。对于CASP14使用的AlphaFold的最新版本,我们创建了一个基于注意力的神经网络系统,经过端到端的训练,它试图解释这个图的结构,同时对它所构建的隐式图进行推理。它使用进化相关序列、多序列比对(MSA)和氨基酸残基对的表示来细化该图。

通过重复这个过程,系统可以对蛋白质的基本物理结构做出强有力的预测,并且能够在几天内确定高度精确的结构。此外,AlphaFold可以使用内部置信度来评估每个预测的蛋白质结构的哪些部分是可靠的。

我们利用蛋白质数据库中的170000个蛋白质结构和包含未知结构蛋白质序列的大型数据库对该系统进行了训练。它使用大约128个TPUv3内核(大约相当于约100-200个gpu)运行数周。与我们的CASP13 AlphaFold系统一样,我们正在准备一篇关于该系统的论文,以便在适当的时候提交给同行评审的期刊。

对现实世界的影响

十年前,当DeepMind成立时,我们希望有一天人工智能的突破能够成为一个平台,帮助我们更好地理解基本科学问题。现在,经过4年的努力建立了AlphaFold,我们开始看到这一愿景的实现,并对药物设计和环境可持续性等领域产生了影响。

马克斯·普朗克发育生物学研究所所长、CASP评估师安德烈·卢帕斯教授告诉我们,“AlphaFold惊人准确的模型使我们能够解决我们在近10年里一直坚持的蛋白质结构,重新启发了我们对信号如何通过细胞膜传递的理解。”

我们对AlphaFold在生物学研究和更广阔的世界的影响持乐观态度,我们也很高兴与其他人合作,在未来的岁月里进一步了解它的潜力。除了撰写同行评议的论文外,我们还在探索如何以可伸缩的方式提供对系统更广泛的访问。

同时,我们也在研究蛋白质结构预测如何与少数专家小组一起帮助我们了解特定疾病,例如帮助识别出有故障的蛋白质并解释它们如何相互作用。这些认识可以使药物的研发更精确,补充现有的实验方法,更快地找到有希望的治疗方法。

“预测蛋白质结构的速度是惊人的。这一飞跃展示了数值计算方法准备如何改变生物学研究,并有望加速药物发现。”亚瑟·D·莱文森。博士,创始人兼首席执行官卡利科,前董事长兼首席执行官,基因泰克

我们也看到一些迹象表明,蛋白质结构预测在未来的疾病大流行应对工作中可能是有用的,它是科学界开发的许多工具之一。今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构以前是未知的。在CASP14,我们预测了另一种冠状病毒蛋白质ORF8的结构。实验家们已经证实了ORF3a和ORF8的结构。尽管它们具有挑战性,而且相关序列很少,但与实验确定的结构相比,我们在两种预测上都获得了较高的准确度。

除了加速对已知疾病的了解外,这些技术仍然有潜力探索我们目前还没有模型的数亿蛋白质结构,这是一个生物学未知的广阔领域。由于DNA指定了构成蛋白质结构的氨基酸序列,基因组学革命使得人们能够大规模地从自然界中读取蛋白质序列——有1.8亿个蛋白质序列,并在通用蛋白质数据库(UniProt)中计数。相比之下,考虑到从序列到结构所需的实验工作,蛋白质数据库(PDB)中只有大约170000个蛋白质结构。在这些尚未确定的蛋白质中,可能会有一些新的和令人兴奋的功能,就像望远镜能帮助人们更深入地观察未知的宇宙一样,像AlphaFold这样的技术可以帮助我们找到它们。

未来新的可能性

AlphaFold是迄今为止我们最重要的进展之一,但是,与所有科学研究一样,仍然有许多问题需要回答。不是每一个我们预测的结构都是完美的。还有很多东西需要学习,包括多个蛋白质如何形成复合物,它们如何与DNA、RNA或小分子相互作用,以及我们如何确定所有氨基酸侧链的精确位置。在与其他人的合作中,我们还需要学习如何最好地利用这些科学发现来开发新药、管理环境的方法等等。

对于我们所有致力于科学计算和机器学习方法的人来说,AlphaFold这样的系统展示了人工智能作为帮助基础发现的工具的潜力。正如50年前安芬森提出了一个远远超出科学研究范围的挑战,我们宇宙的许多方面仍然是未知的。今天宣布的进展让我们进一步相信,人工智能将成为人类拓展科学知识前沿最有用的工具之一,我们期待着未来多年的努力和发现!

原文链接:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

0 人点赞