“我有一个要研究的蛋白,但我不知道它的结构和功能”——这是分子和细胞生物学家每天面临的最大难题之一。[1] 随着氨基酸测序技术的不断发展,越来越多的蛋白质序列得以被高通量地读取,但是从这个一维序列本身到能够解出实际的三维结构,仍然还有很大的距离。
[1]引自 Roy, A. et al., Nature Protocol, 2010
如果说生物的基本单元是细胞,那么细胞的基本功能单元,就是一个个错综复杂的蛋白。而决定蛋白质功能的核心,正是蛋白的结构。想要研究蛋白质的功能或是设计靶向的药物,蛋白质的结构也是非常重要的一环。也正是因为这种重要性,生物里面专门有一个领域,叫做结构生物学。知名华人生物学家施一公,就是结构生物学的带头人之一。
2018年,又是两年一度的国际蛋白质结构预测竞赛(CASP)的日子(历史推文无序结构域IDRs的预测里也有提到)。这个迄今已经进行了25年的比赛项目,每届都能吸引来自世界各地的数百支团队参与,对一些组委会选中蛋白结构进行定量地预测。上周末,正是本届竞赛结果揭榜的日子。更多详情可查看官网:http://predictioncenter.org/casp13
在揭榜以前,大赛组委会群发了这么一条剧透邮件给参赛者。
CASP13 this year has observed unprecedented progress in the ability of computational methods to predict protein 3D structure. The reasons are not yet fully clear, but all this, including of course the results, will be discussed at the meeting.
大意是说,这届比赛见证了“前所未有”的突破,具体的原因尚不十分清楚,但我们会在周末的正式大会上进行详细地讨论。“史无前例的神秘团队”,高高地吊起了众人的胃口。因为这次事件的特殊性,大会甚至追加了一轮注册,给想要来看热闹的媒体们提供额外一次买票的机会。
美国时间凌晨,本届比赛参赛总榜正式揭开,一个署名为A7D的团队拔得头筹,并且把其他队伍的结果远远地甩在了后面。甩得有多远呢?驻波去挖了一下前几次比赛的最终结果,A7D和第二名在本届比赛中的差距,几乎比CASP成立二十年以来模型性能提升的总和还要高[2]。
[2] 每届预测目标不同,直接比较的结果并不非常准确。
纵坐标:模型对每一道赛题(蛋白)的
预测近似性成绩累加,越高越好
深灰色的是今年97支队伍的成绩,浅灰色的是2016年上届128支队伍成绩,红色的是DeepMind的队伍A7D。
举几个被预测蛋白的例子,A7D的模型的画风是这样的——
下面每幅图代表参赛模型对某一个未知结构的蛋白的预测结果
纵坐标:模型预测和实际结构在全链上的累计偏差(越低越好)
青色的线是A7D的预测结果
粉色的线是总成绩第二名的密西根大学团队
这样的——
和这样的——
除了累计总分第一名,DeepMind团队成功在43个参赛蛋白中拿到25个单项最佳模型;相比之下,累计总分第2名的团队拿到了其中的3个[3]。 这个可谓一骑绝尘的队伍究竟是何方神圣呢?是的你已经被剧透了,赛后A7D在论坛上表示,自己其实是来自DeepMind的研究人员,对就是那个当年开发AlphaGo的DeepMind!据报道,DeepMind已经将此模型正式命名为AlphaFold [3]。
[3] Guardian新闻
事实上,早在2017年10月,DeepMind就在一次公开采访中表示,团队开始对人工智能在药物开发中的应用感兴趣,而新药开发的关键一步,就是对靶点蛋白质三维结构的精准测算。如今这个新闻正好过去一年的时间,DeepMind也向世人再次证明了深度学习在又一全新场景中的巨大潜力。
Deep Learning又双叒叕渗透进了一个新的应用场景
DeepMind这一次做了什么?
据统计,截至2010年,只有0.6%的已知蛋白序列被解析出了相应的结构[3]。正是缘于这个巨大的断层,第一届蛋白质结构预测挑战(Critical Assessment of Techniques for Protein Structure Prediction,CASP)于1994年在加州举办。得益于问题的规范化,二十年来许许多多的计算模型得以被开发。笔者的导师Chris Sander,多年前从理论物理方向转行生物的时候,也是从结构预测这个生物学问题开始的。我也是这次写这篇新闻稿才知道,Chris当年也是CASP竞赛第一届的获奖者之一。
我的导师Chris Sander
可以手写蛋白质三个汉字的德国老爷子
历史上来说,这些计算的模型主要分成了三大流派——Comparative Modeling的演化流,threading methods的比对流,还有from scratch的ab initio流。
演化流的核心概念是寻找演化历史上同源或者近似同源的序列,从他们的结构出发预测新的目标蛋白;比对流的核心概念是说,不一定要演化上同源,直接将目标序列中的片段和曾经解析出来的三维结构进行匹配和比对,就可以用来预测新的蛋白;而最难却也最关键的,就是ab initio流,目的是从零开始预测那些完全找不到相似性的蛋白序列,这是拉丁语里从最初开始的意思。
1999年,一款基于ab initio的模型Rossetta由华盛顿大学David Baker团队开发。模型通过Monte Carlo模拟退火算法成功预测了长度100个氨基酸左右的若干蛋白,预测精度最低达到方均根差(RMSD) 3.8Å,并成为了CASP III的获奖者之一 [4]。Baker 2003年发表于Science杂志上的一项工作中,更是成功预测了一段长度93个氨基酸的人工合成序列TOP7,精度达到1.2Å[5]。2005年,Baker团队开发了屏保程序Rosetta@home,客户端会在闲置时帮助Rossetta服务器进行结构解析的模拟运算。借用这种分布式计算的形式,调用众多闲置个人计算资源,取得了极大的成功。
[4] Simons et al., Proteins. 1999.
[5] Kuhlman et al., Science. 2003.
Baker Lab开发的的屏幕保护程序Rossetta@Home
近年来,随着CASP挑战的持续进行,这些流派之间的界限也逐渐变得模糊,越来越多的科研团队开始把这三方面信息都整合到一个模型之中,融合成一个更加准确的预测模型。在这些团队之中,来自密西根大学的Yang Zhang团队所开发的I-TASSER,就是成功的例子之一。
UMich的教授Yang Zhang和他开发的I-TASSER,该工具已经被引用超过6000次,协助过来自141个国家的超过100,000名科研人员。
从2008年模型面世开始,I-TASSER及他的各种变体组合已经成为了最流行的结构计算模型之一,在接近十年的CASP比赛中名列前茅。本次CASP比赛中,Zhang团队通过整合I-TASSER和卷积神经网络CNN,将模型准确率进一步提高,并获得了本次比赛的第二名。
AlphaGo版的蛋白预测模型因何取得巨大突破
甚至早在AlphaGo面世之前,就有一些学者尝试使用神经网络和Reinforcement Learning来模拟退火的这一步过程[6]。那么这次AlphaGo是因何能够在本次比赛中脱颖而出呢?AlphaGo官方声明还没有出,我们只能从他在比赛网站上po出的一页纸的概要中略窥一二。
[6] Czibula et al., Int.J.Comp.Tech.Appl. 2011.
DeepMind在CASP比赛网站上po出的模型概述
按照队伍带头人之一Andrew Senior所述,本次DeepMind提交的预测结果来自于三种不同变体的神经网络生成模型。整个模型由一个二维接触网络和一个评估网络组成。
在二维接触网络中,蛋白的一级序列被用来预测蛋白每一对氨基酸与氨基酸两两组合的距离。在这一计算模块中,虽然三维的结构尚不清楚,但是神经网络可以学习并预测出是哪些氨基酸在相对较近的同一空间区域当中(contact matrix),相当于把一维的信息转变为二维的距离。
评估网络模块的输入,就是第一个网络的输出,再加上序列匹配(Multiple Sequence Alignment,MSA)和几何结构(Structure Geometry)的信息。这些信息则被投入到一个退火组装的模型当中,然后根据全片段的预测结构和实际结构的相似性学习出一个使退火组装表现最好的分数;在预测过程中,这个分数作为退火模型优化的目标函数。
为了训练这个神经网络,DeepMind将国际蛋白质数据库PDB中全部已知结构的蛋白都投入到了training当中。每个蛋白被分割成许许多多互相重叠的短肽,模型被要求对这些短肽片段进行结构的预测和评分。这些评分的结果和传统的Rossetta的评分一起被用来训练这两个模块中的参数,从而自动训练出一个模拟退火的目标函数。
使用CASP13中的一个例子CASP13-T1008
演示模型训练的进程
如果到这里就结束了,那你就小看DeepMind了。DeepMind这次上传的模型中,还包含了一种完全抛弃传统上fragmentation先分段后组装的训练方法,在这个模型中,DeepMind将氨基酸之间的扭转角(torsion)直接作为模型的预测输出,对应两个神经网络给出的二维结构评估和全长评分直接进行梯度下降(Gradient Descent,GD),竟也取得了相当惊人的效果。这种几乎完全放弃传统意义上biophysics手动选取feature的方法,仿佛让人们看到了当年AlphaGo高处不胜寒的影子。
后记:结构生物学的春天来临了吗
“除了DeepMind外,包括我们在内的很多工作组也在使用其他的Machine Learning方法解决这一问题。”英国科学家Liam McGuffin也表达了他的乐观,“这几年来AI给这个领域带来了惊人的推动,也许在2020年左右,我们就可以基本上解决蛋白结构预测的问题,我对此很乐观。”
在结构生物学领域,这毫无疑问是一项巨大的突破,但也掀起了很多质疑和担忧的声音。事实上,这个模型也尚没有达到极高的准确率,在一些传统模型可以解决的案例中,反而达不到预期的效果。比如CASP13-T0966-D1,对应E. Coli中的RRSP蛋白,是一种和Ras-Erk同路有相互作用的重要蛋白,也是一种治疗Ras相关癌症的潜在药物靶点,AlphaFold对这个蛋白的预测甚至都没有达到平均水平。模型对于什么样的蛋白分子更有效?为什么更有效?这些都尚未被详细地研究清楚。这样的模型可以被用来实际应用帮助药物开发吗?可能还要画一个小小的问号。
一个DeepMind模型失败的例子:蛋白RRSP
青色的线表示A7D的结果,粉色的线是总平均第二名的密西根大学团队
“比起正确率的突破,DeepMind在退火模拟中没有采用外界所预期的强化学习的思路更值得玩味。”MIT人工智能实验室的一名博士生S这样告诉驻波,“DeepMind有一万条理由去尝试这条思路,但是最终公布的结果并没有采用。如果拥有如此资源的DeepMind都没有做到这些,这可能对于强化学习在蛋白折叠中的应用是一个警告。”
“而且,模型中也包含了 Rosetta的评分。”S补充道,“DeepMind尝试过抛弃这种评分系统,但是最终也没有完全做到,这充分说明这种传统方法长期积累下来的估值函数也起到了相当于重要的作用。”
实际上,AI在生物学的整合并非个例。近年来以google为首的人工智能团队在生物医药领域全面开花,已经在癌症病理图片识别,基因组突变检测,疾病风险评估等诸多领域取得了人类水平,甚至超过人类水平的耀眼成绩。但这些表面看上去很成功的模型也都不可避免地受到普适性、可用性、可解释性的障碍。
一个成熟的应用场景不仅仅需要一个高精度的网络模型,更需要对领域里亟待解决的问题有足够深的理解,以及更多有着交叉学科背景的人才携手努力。随着越来越多的人加入到这场战役之中,AI医疗,未来可期。
文/袁博
审/范静萱、张涵雄、常亮