蛋白质是生命的基础,可以单独或一起工作以构建、管理、提供燃料、保护并最终破坏细胞。为了发挥作用,这些长链氨基酸扭曲、折叠并交织成复杂的形状,这些形状可能很慢,甚至不可能破译。科学家们一直梦想着根据蛋白质的氨基酸序列简单地预测蛋白质的形状——这种能力将开启一个洞察生命运作的世界。马里兰大学的结构生物学家 John Moult 说,“这个问题已经存在了 50 年,很多人都对此感到头疼”。
几个月前,在一个被誉为转折点的结果中,计算生物学家表明人工智能 (AI) 可以准确预测蛋白质形状。现在,西雅图华盛顿大学的 David Baker 和 Minkyung Baek 以及他们的同事使基于 AI 的结构预测变得更加强大和易于使用。本周《Science》在线描述了他们的方法,不仅适用于简单蛋白质,还适用于蛋白质复合物,其创建者已免费提供他们的计算机代码。
https://github.com/RosettaCommons/RoseTTAFold
自从该方法上个月在网上发布以来,该团队已使用它对其他研究人员提交的 4500 多个蛋白质序列进行建模。根特大学的结构生物学家 Savvas Savvides 曾六次尝试模拟一种有问题的蛋白质。
2020 年秋季,谷歌旗下的英国人工智能公司 DeepMind 在两年一度的竞赛中以其结构预测赢得了该领域的盛赞(Science,2020 年 12 月 4 日,第1144页),该竞赛称为蛋白质结构预测的关键评估 (CASP)。Moult说,DeepMind 的AlphaFold2系统做了非常了不起的事情 ,预测具有原子精度的蛋白质结构。
DeepMind 在 CASP 上的 30 分钟演讲足以激发 Baek 开发自己的方法。与 AlphaFold2 一样,它利用人工智能在大量示例数据库中识别模式的能力,在学习时生成更明智和准确的迭代。当给一个新的蛋白质建模时,RoseTTAFold 会沿着多个“轨道”进行。一种是将蛋白质的氨基酸序列与蛋白质数据库中的所有相似序列进行比较。另一个预测蛋白质内氨基酸之间的成对相互作用,第三个编译假定的 3D 结构。程序在轨道之间弹跳以优化模型,使用每个轨道的输出来更新其他轨道。
DeepMind 的方法虽然仍处于保密状态,但只涉及两条轨道。纽约大学医学院的细胞和结构生物学家 Gira Bhabha说,这两种方法都很有效。“DeepMind 和 Baker 实验室的进步都是惊人的,将改变我们如何使用蛋白质结构预测来推进生物学。DeepMind 的一位发言人在一封电子邮件中写道:“很高兴看到这样的例子,蛋白质折叠社区正在 AlphaFold 上构建,以实现我们增加对结构生物学理解的共同目标。”
但是 AlphaFold2 只解决了单个蛋白质的结构,而 RoseTTAFold 也预测了复合物,例如锁定在其受体上的免疫分子白细胞介素 12 的结构。巴塞尔大学的计算结构生物学家 Torsten Schwede 说,许多生物功能取决于蛋白质-蛋白质的相互作用。“直接从序列信息处理蛋白质-蛋白质复合物的能力使其对生物医学研究中的许多问题极具吸引力。”
Baker承认,总的来说AlphaFold2 的结构更准确。但 Savvides 表示,Baker实验室的方法更好地捕捉了“蛋白质结构的本质和特殊性”,例如识别从蛋白质侧面伸出的原子串——这是蛋白质之间相互作用的关键特征。Agard 补充说,Baker 和 Baker的方法比 DeepMind 的方法更快,并且需要的计算能力更少,后者依赖于谷歌的海量服务器。然而,DeepMind 发言人写道,其最新算法的速度是 2020 年在 CASP 上使用的算法的 16 倍以上。
参考资料
Pennisi, Elizabeth. "Protein structure prediction now easier, faster." (2021): 262-263.