机器之心原创 作者:萝卜皮
2021 年夏天,对于蛋白质结构预测领域来说是一个丰收的季节。7 月 15 日 DeepMind 团队与华盛顿大学 David Baker 团队分别开源了 AlphaFold2 与 RoseTTAFold,这可以说是蛋白预测领域一件里程碑式的事件。
在之后的几个月里,不断有团队使用开源的软件取得了显著成果,比如利用 AlphaFold 解析噬菌体,研究蛋白复合体的活化与聚合,开发解析蛋白质糖基化新工具等。
那么问题来了,乍看占据舆论中心的都是来自国外的团队,国内团队表现如何呢?
日前,来自中国上海的天壤 XLab 团队,其自研的蛋白质结构计算平台TRFold2,在基于国际权威的CASP14蛋白质测试集的评估中获得82.7的成绩(满分100),超过华盛顿大学生物学家 David Baker 团队研发的 RoseTTAFold,仅次于AlphaFold2。
同时,对比 AlphaFold2 的 128 个 TPUv3 核心(相当于 256 块 GPU)算力配比,天壤的算法训练仅用 8 张 RTX3090。在预测约 400 个氨基酸的蛋白链时,AlphaFold2 需要 70 多秒;TRFold 16 秒即可完成,而且还是在只用一张 GPU 的情况下。
图示:参加CASP14比赛团队的部分成绩排名。
这个成绩是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,它标志着我国计算生物学领域的表现已经处于世界第一梯队。
面对团队取得的阶段性进展,天壤创始人薛贵荣博士表示:「我们通过两年半的时间掌握了蛋白质折叠预测的核心技术,并以此参与到国际最前沿的生物医学领域的应用中,希望能够开辟出一条 AI 生物学的应用之路。」
从头搭建一套自研平台,才能深入探索本质
蛋白质结构预测研究具有巨大的科研价值和社会经济价值——蛋白质结构解析可以帮助揭示生命的生物学本质,探究生物体内各类代谢通路,这将加速科学家对于各类疾病的研究;同时可以加速药物发现和药物设计流程,提高药物研发效率;工业生产方面,蛋白结构解析可以帮助优化众多酶的功能,降低生产成本提高生产效率。
AlphaFold2 的开源,适当降低了结构研究对于电镜等高昂设备的依赖性,这将方便更多从事结构研究的科研人员。
然而,在天壤团队看来,开源带来的也并不全是便利,占据自主研发的高地才能避免在未来的科技竞争中卡脖子。
天壤 XLab 团队负责人苗洪江博士告诉机器之心:「AlphaFold2 的开源对我们自己要实现的技术路径带来了挑战和机遇,因为假如没有深入探索过程,就无法对不同的方法优势进行量化,也不能将最有价值的创新进行更大范围的应用。」
「此外这次开源并未公布训练代码,意味着即便下载了它的源代码,也只能对单蛋白结构进行预测而无法根据项目需求进行进一步的优化改进。」
「比起单个蛋白的预测,天壤更关注的是这项技术的未来,所以我们一定需要从头搭建一套自研算法,才能展开后续的工作。」
图示:对于单个蛋白的预测,TRFold 已经可以得到与 AlphaFold2 相媲美的结果。
在 AlphaFold2 的基础上再往前进一步
在众多解读中,普遍认为 AlphaFold2 分为两大模块,第一大模块主要是基于注意力机制的序列分析,第二大模块是去直接生成三维结构。后者采用端到端的方法,绕过了原来先预测 Contact 和 Distance,而后再去搭建三维模型的多段式预测方式,也被认为是DeepMind 思路巧妙和 AlphaFold2 成功的一大原因。
TRFold 也是基于多个模型,但不同的是,Distance 即距离预测也是 TRFold 中十分重要的部分,TRFold 可以高精度的预测两两氨基酸之间的距离。
「由于我们的项目一直延伸到蛋白质-蛋白质相互作用(PPI)分析,所以我们考虑的不仅是单蛋白质或复合体结构预测,还有更前一步的两个或多个蛋白是否会相互作用的判别。这是目前 PPI 预测任务下的核心部分。」苗洪江博士介绍说。
针对蛋白互作判别选择的问题,天壤初步选取了蛋白质接触面距离来对蛋白相互作用进行判别。
据悉,TRFold中既包含了 End2End 预测三维结构的模型,也包含了专门预测氨基酸残积间距离的模型,同时还包含结构分析优化模型以及专门针对无共进化信息模拟的模型。
图示:TRFold 采用 5000万的参数循环多轨注意力网络,同时支持氨基酸的距离预测和结构预测。
与众多技术相比,TRFold 的最大优势可能还是对算力的节省;毕竟与 AlphaFold2 的 128 个 TPUv3 核心(相当于 256 块 GPU)算力相比,TRFold 算法训练仅用了 8 块 RTX3090;算力消耗仅 AlphaFold2 的 1/32。
同时,TRFold 可以根据不同的情况用不同版本的算法进行模拟训练,有很强的延展性,且用了更小的资源可以更快速生成预测模型。
在新型冠状病毒疫情爆发的初期,CASP 组织者曾发起了一次针对难以实验解析的 COVID-19 蛋白质结构预测,天壤提交的 nsp6-D2 预测结果入选 CASP 官方评选的六个「最具可信度模型」。
图示:天壤提交的 nsp6-D2 预测结果入选 CASP 官方评选的六个「最具可信度模型」。
AI 在基础科学中的巨大潜能,是我们不愿意错过的一道风景
说起天壤,首先会想到智慧城市、智能交通,因此得知 TRFold 取得的成绩时,我们首先问的是天壤进入蛋白质结构预测领域的原因。
「我们长期以来面临的都是此类复杂系统的决策问题,在技术层面已经有了深厚的积累,蛋白质折叠预测虽然是生物学课题,但也属于这个领域,并且体现了AI在基础科学中的巨大潜能,这也是每个立志于基础研发的 AI 从业者的价值取向,我们不愿意错过这道风景。」天壤创始人薛贵荣博士表示。
对于天壤来说,目前的单个蛋白质折叠预测只是一个起点,更加精准的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一系列的问题还没有解决,他们接下来的工作重点,将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路。
图示:天壤团队对蛋白质探索的未来布局。
苗洪江博士说:「尽管目前我们的预测结果仍低于 AlphaFold2 ,但我们的模型还在不断优化和迭代提高,比如蒸馏数据的加入,网络的扩大,模型间的相互增强等等。另外,我们也在做适用于其他『目标』的模型,以解决像抗体 CDR、蛋白设计、点突变结构等缺少共进化信息的模拟问题。」
一般认为,CASP14 分数达到 90 以上就与实验室的预测结果差别不大,目前 TRFold 基于更小的数据获得了第二名,后续还会继续迭代,达到 90 分以上只是时间问题。
天壤的 TRFold 展现了中国自研蛋白质结构预测算法平台的潜力,而令人高兴的是,在实现科技自立自强的新征程上,如天壤一样越来越多的中国科技公司正涌向这个领域。
天壤创始人薛贵荣表示:结构生物学打开了全新的大门,天壤期待与业界同仁一起,在新一轮生命科学研究中取得突破性的成果,真正为人类社会做出贡献。
© THE END
转载请联系本公众号获得授权