2022年7月28日,DeepMind官方网站发布AlphaFold最新进展:AlphaFold已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构。
通过与EMBL-EBI合作,DeepMind发布了科学界已知的几乎所有已编目蛋白质的预测结构,这将使AlphaFold DB扩展超过200倍 (从近100万个结构到超过2亿个结构),有可能大大增加我们对生物学的理解。
今天的更新意味着主要蛋白质数据库UniProt上的大多数页面都会有一个预测结构。所有2亿多个结构也将通过Google Cloud Public Datasets提供批量下载,使全世界的科学家更容易获得AlphaFold。
对于这一进展,Nature发布文章声称,从今天开始,确定几乎任何科学已知蛋白质的3D形状将像在谷歌搜索中输入一样简单。
DeepMind首席执行官Demis Hassabis在新闻发布会上说,“基本上你可以认为它涵盖了整个蛋白质领域,我们正处于数字生物学新时代的开端”。
EMBL-EBI称,在超过2.14亿个预测中,大约35%被认为是高度准确的,这意味着它们与实验确定的结构一样好。另外45%的预测被认为有足够的信心,在许多应用中可以依赖。
到目前为止,AlphaFold的影响
在首次发布12个月后,AlphaFold已经产生了令人难以置信的影响。
迄今为止,来自190个国家/地区的超过500,000名研究人员访问了AlphaFold DB,查看了超过200万个结构。DeepMind免费提供的结构也已集成到其他公共数据集,例如Ensembl、UniProt和 OpenTargets,数百万用户在这些数据集中访问它们,作为日常工作流程的一部分。
只是开始
在官网文章中,Demis Hassabis称:
AlphaFold将生物学带入了一个结构丰富的时代,以数字速度开启了科学探索。AlphaFold DB充当蛋白质结构的“谷歌搜索”,为研究人员提供即时访问他们正在研究的蛋白质的预测模型,使他们能够集中精力并加快实验工作。从抗击疾病到开发疫苗,AlphaFold已经在我们面临的一些最大的全球挑战中取得了令人难以置信的进展,而这仅仅是我们将在未来几年开始看到的影响的开始。这个扩展的数据库将帮助更多的科学家开展工作,并开辟全新的科学探索途径,例如元蛋白质组学。
DeepMind正在努力利用所有这些潜力,在许多领域进行大量投资:包括与新姊妹公司Isomorphic Labs合作,以人工智能为先的方法从第一性原理重新构想整个药物发现过程;在著名的Francis Crick Institute建立湿实验室,以加强人工智能与实验技术之间的联系,以促进对生物学 (包括蛋白质设计和基因组学) 的理解;并扩大我们AI for Science团队,以加快我们基础生物学研究的进一步进展,并将AI应用于其他有趣且重要的科学挑战,例如气候科学、量子化学和融合领域。
AlphaFold是对未来、以及将计算和人工智能方法应用于生物学的可能性的惊鸿一瞥。在其最基本的层面上,生物学可以被认为是一个信息处理系统,尽管是一个异常复杂和突发的系统。正如数学是物理学的完美描述语言一样,我们相信人工智能可能会成为应对生物学动态复杂性的正确技术。AlphaFold是这方面的第一个重要的证明点,也是未来会有更多证明的标志。作为"数字生物学"这一新兴领域的先驱,我们很高兴看到人工智能的巨大潜力开始得到实现,成为人类推动科学发现和理解生命基本机制的最有用的工具之一。
AlphaFold突破时间表
01
2016年 当一个团队庆祝时另一个团队成立
2016年3月13日
DeepMind的AlphaGo程序在首尔的一场挑战赛中击败了传奇围棋选手李世石。这一分水岭时刻表明,DeepMind的人工智能技术具有足够先进的潜力,可以应用于包括“蛋白质折叠问题”在内的科学挑战。不久之后,DeepMind成立了一个小团队,开始蛋白质结构预测工作。
02
2018年 AlphaFold性能的首次公开测试
2018年12月2日
AlphaFold的表现在CASP13中成为基准,排名第一 (在条目A7D下)。这些方法随后发表在科学杂志Nature上。团队扩大,并开始研究创新的新系统。
03
2020年 解决50年来生物学领域重大挑战
2020年11月30日
AlphaFold2以巨大优势赢得CASP14,并被CASP的组织者认为是解决50年历史的“蛋白质折叠问题”的解决方案,因为它预测结构达到原子精度,中值误差 (RMSD_95) 小于1埃,比次优系统准确3倍,可与实验方法媲美。
2020年12月1日
John Jumper和Demis Hassabis各就AlphaFold系统的想法、架构和发布计划向CASP14与会者进行30分钟的演示,确认了DeepMind致力于为我们的工作提供广泛访问的承诺。
04
2021年 将AlphaFold的力量交到世界手中
2021年7月15日
Nature在“Highly accurate protein structure prediction with AlphaFold”一文中发表了AlphaFold的详细方法,DeepMind开源了代码以及详细描述系统各个方面的60页补充信息。
2021年7月22日
Nature发表了第二篇DeepMind论文,其中包含整个人类蛋白质组的结构预测,使已知的高置信度结构的数量增加了一倍。通过与欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI) 密切合作,DeepMind推出了AlphaFold蛋白质结构数据库,让科学界可以自由和开放地访问人类蛋白质组以及另外20种模式生物的总共超过350,000种结构。
2021年10月4日
DeepMind在biorxiv上发表了另一篇论文“Protein complex prediction with AlphaFold-Multimer”,该论文正确地解释了多链蛋白质,并展示了与现有方法 (包括普通AlphaFold2) 相比在预测复合物方面的卓越性能。
2021年11月2日
DeepMind更新了AlphaFold2源代码以解释多链蛋白质复合物,显著提高了预测蛋白质相互作用的准确性。
2021年12月9日
DeepMind在与EMBL-EBI合作的AlphaFold蛋白质结构数据库中增加了超过40万的蛋白质结构。这个版本包括了大多数蛋白质的结构,在UniProtKB/SwissProt中为大多数人工收集的UniProt条目添加了预测,使数据库的规模增加了一倍多。
05
2022年 数据库的数量级增长
2022年1月28日
DeepMind为与EMBL-EBI合作的AlphaFold蛋白质结构数据库增加了27个新的蛋白质组 (19万多个蛋白质),其中17个代表被忽视的热带疾病,这些疾病继续破坏着全球10多亿人的生活。迄今为止,全世界已有超过30万名研究人员使用了该数据库。
2022年7月28日
DeepMind将AlphaFold蛋白质结构数据库从近100万个结构扩展到超过2亿个结构,包括对UniProt中大多数蛋白质的预测。
……
……
参考资料
https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
https://www.deepmind.com/research/highlighted-research/alphafold/timeline-of-a-breakthrough
https://www.nature.com/articles/d41586-022-02083-2
--------- End ---------