地球超2亿蛋白质结构全预测,AlphaFold引爆「蛋白质全宇宙」!

2022-08-26 14:36:56 浏览数 (1)


新智元报道  

编辑:拉燕 Aeneas 如願 桃子

【新智元导读】今天,AlphaFold又让学术界沸腾了。DeepMind官宣,AlphaFold可以预测出2亿多个蛋白质结构,几乎覆盖了整个「蛋白质宇宙」。

今天,DeepMind再次引爆学术界!

AlphaFold能够预测2亿多个蛋白质结构,实现数量级的重大飞跃。

最重要的是,全部免费开放!

在未来,预测蛋白质结构就如同使用「谷歌搜索引擎」一样简单。

DeepMind的首席执行官Demis Hassabis称,

「这个数据库涵盖了整个蛋白质宇宙,我们已经迈入数字生物学的全新时代!」

超2亿蛋白质结构,免费用

不可小觑的是,AlphaFold确实是学术界「海啸级」的存在,足以改变全人类。

2021年,DeepMind开源AlphaFold2后,震撼发布了AlphaFold蛋白质结构数据库(AlphaFold DB) 。

当时,98.5%的人类蛋白质结构全被AlphaFold2预测出来了。

而现在,DeepMind正式宣布该数据库已经从近100万扩大到2.14亿个结构,预测蛋白质结构数量也提升了200多倍!

几乎涵盖了地球上所有已进行过基因组测序的生物体。

据介绍,在超过2亿个蛋白质结构预测中,大约35%的结构具有高精度,并且已达到了实验手段获取的结构精度。

80%的结构可靠性足以用于多项后续分析。

让人兴奋的是,所有蛋白质三维结构都可以通过谷歌云公共数据集 (Google Cloud Public Datasets) 进行批量下载。

(https://github.com/deepmind/alphafold/blob/main/afdb/README.md)

这次数据库的更新更是涵盖了植物、细菌、动物和其他微生物的蛋白质结构。

另外,DeepMind也将自身数据库集成到其他公共数据集,像Ensembl、UniProt 和 OpenTargets都可以使用。

目前,AlphaFold已被广泛使用,成为了世界各地成千上万实验室和大学的重要工具。

仅发布12个月后,已经有190个国家/地区的50多万研究人员访问数据库AlphaFold DB,查看了超200万个结构。

科学家用其推进现实问题的研究,诸如疟疾候选疫苗、蜜蜂健康、抗生素抗药性等等。

当前公布的这份前所未有的2亿多个蛋白质结构,将帮助我们探索生命科学的无尽奥秘。

AlphaFold的成功逆袭之路

时至今日,一提到AlphaFold,仍旧让人兴奋不已。

因为它的诞生成功破解了生物学持续50年的重大难题——蛋白质折叠问题。

还证明了AI可以在几分钟内以原子精度准确预测蛋白质的形状!

说起AlphaFold的发展历程,其实算得上有些年头了。

很多人可能都不知道,2016年可以说是DeepMind开发AlphaFold萌芽的起点。

2016:潜力无限

2016年,DeepMind的AlphaGo刷爆网络。

来自韩国的世界知名棋手李世石不敌AlphaGo,让人们见识到了AI能做什么。

人们也开始逐渐意识到,AI真的潜力无穷。除了围棋,在未来还能应用在各种各样的科学研究中。

也是从这时开始,DeepMind想尝试用AI解决蛋白质的折叠问题。

很快,AlphaGo吸粉无数的那一年3月,DeepMind组建了一队人马,开始着手研究蛋白质结构的预测问题。

2018:初次亮相

2年后,也就是2018年,生物学界的「AlphaGo」来了。

AlphaFold在国际蛋白质结构预测竞赛(CASP)上首次亮相,力压其他97个参赛者。

当时,AlphaFold预测出了43种蛋白质中25种蛋白质的最精确结构。

在同一类别中排名第二的队伍,只预测出了3种。

一时间,所有人将其为DeepMind在科学发现领域的第一个重要里程碑。

2020:一举夺魁

2020年,DeepMind发布了AlphaFold软件的第二个版本。

第二代AlphaFold的突破在于,通过预测所有原子的3D结构,来更快更准确地预测出蛋白质结构。

当时,AlphaFold2再一次在CASP大赛上一举夺魁。

CASP认可了AlphaFold的地位,认为这是能够解决蛋白质结构预测这一挑战的方案。

那年,AlphaFold2成功解决了蛋白质折叠问题,将准确性提升到了92.4。

这一突破表明了人工智能对科学发现的影响,以及它在解释和塑造我们的世界的一些最基本领域大幅加速进展的潜力。

当时的DeepMind,在全球大约有1000名员工,其中一些是世界顶级AI专家,都是来自牛津、剑桥、斯坦福或者MIT的博士, 他们的年薪都在100万美元以上。

虽然钱花得多,但DeepMind的一位发言人在当时接受采访时表示,「在产生这些支出的同时,DeepMind也取得了很多开创性的进展。」

2021:引爆学术圈

时间到了2021年,在这一年,AlphaFold2的横空出世,沸腾了整个学术圈。

不仅谷歌CEO皮猜、马斯克、李飞飞等大V纷纷点赞,连马普所的演化生物研究所所长Andrei Lupas都直言:「它会改变一切。」

2021年7月15日,DeepMind在Nature上发表了一篇论文,开源了其基于深度学习神经网络的AlphaFold2模型。

论文地址:https://www.nature.com/articles/s41586-021-03819-2

仅开源一周后,DeepMind便官宣发布AlphaFold数据集,向公众免费开放。

其预测了98.5%的人类蛋白质结构,以及20个其他被大量研究的生物体的完整蛋白质组,其中包括小鼠、酵母菌和大肠杆菌,累计共有36.5万个结构。

一个月后,AlphaFold再次登上Nature,并且上了封面。

在文章中,DeepMind研究人员描述了AlphaFold神经网络的最新更新。

2021年11月17日,Science杂志公布了2021年的年度科学突破榜单,AlphaFold和RoseTTA-fold两种基于人工智能预测蛋白质结构的技术位列榜首。

另外,AlphaFold还荣登2021年年度Nature Methods封面,成为本世纪初的重大科学突破。

2022:彻底改写生物学

2022年,AlphaFold的数据库持续增长。

2022年1月28日,DeepMind使用EMBL-EBI在AlphaFold蛋白质结构数据库中添加了27个新蛋白质组(190k 蛋白质)。

2022年7月28日,DeepMind将AlphaFold蛋白质结构数据库从近100万个结构扩展到超过2亿个结构。

自从AlphaFold开源后,研究人员探索了新冠组源,彻底改写了生物学。

十多年来,分子生物学家Martin Beck和他的同事一直在试图拼出世界上最难的拼图之一:人类细胞中最大的分子结构的详细模型。

而AlphaFold2可以根据基因序列精确预测蛋白质的3D形状,这改变了Beck的工作,也改变了成千上万其他生物学家的研究。

Beck说,「AlphaFold改变了游戏规则。」

以色列耶路撒冷希伯来大学的计算结构生物学家Ora Schueler-Furman表示:「这就像一场地震。你可以在任何地方看到它。」

现在,AlphaFold热潮已经席卷了生命科学领域。伦敦大学学院的计算生物学家Christine Orengo说:「我参加的每一次会议,人们都在说,为什么不使用AlphaFold?」

学界大狂欢

DeepMind的首席执行官Demis Hassabis表示:一年前,他们开源了AlphaFold。现在,他们分享了科学界已知的2亿多种蛋白质预测结构。

这庞大数字背后所涵盖的几乎是整个蛋白质宇宙!

与此同时,另一位大佬——谷歌的CEO桑达尔·皮查伊 (Sundar Pichai)也表达了对这份工作的认可。

他说:「从近100万个蛋白质结构扩展到超过2亿个蛋白质结构,几乎涵盖了所有基因组测序的生物体,这是一个巨大的里程碑!」

这位号称美医学界「世纪医生」的Eric Topol,对这个「里程碑」表示赞许:这是AI在生命科学领域的「大日子」,超过2亿个预测的3D蛋白质结构,几乎囊括了整个蛋白质宇宙!

帕特里克·瓦兰斯爵士(Sir Patrick Vallance)认为:这个「里程碑」,不仅仅是当下的一个巨大进步,更是为整个人类世界应对未来的大流行疾病保驾护航!

Ellen Zhong也表示:「这是生物学新时代的曙光!」

正如帕特里克·瓦兰斯爵士(Sir Patrick Vallance)所说的那样:这个「里程碑」在为整个人类世界保驾护航!

纵观AlphaFold的发展历程,我们看到,它已经将生物学带入了一个结构丰富的新时代。从抗击疾病到开发疫苗,AlphaFold取得了令人难以置信的进展。

过去,确定一个蛋白质的3D结构需要数月或数年,而现在只需要几秒钟。

Demis Hassabis称,「AlphaFold已经成为世界各地实验室和大学中成千上万名科学家的重要工具,从对抗疾病到解决塑料污染,AlphaFold已经对我们面临的一些最大的全球挑战产生了难以置信的影响。」

这个生物学新时代的曙光、这个令人振奋的里程碑,相信在未来,会帮助更多的科学家们开展更多有价值的工作,为科学发展、为人类社会造福!

参考资料:

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

0 人点赞