AlphaFold2的纪录,刚刚被刷新了。
最新消息,全球持续蛋白质结构预测竞赛CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind旗下AlphaFold2的纪录被刷新。
HeliXonAI,一个此前名不见经传的“新面孔”,加冕第一。
同时,在全球结构预测领域主要评价指标lDDT(Local Distance Different Test)中,HeliXonAI跑分也高达83.5分,连续四周排名第一,远超第二名的70.2分。
HeliXonAI由此一鸣惊人,成为圈内热议焦点。
但随着幕后团队浮出水面,如此成绩又被认为情理之中。
因为打造团队华深智药,正是生物计算领域大牛彭健的创业公司,也是张亚勤旗下清华AIR智能产业研究院首个公开的孵化项目。
超越AlphaFold2的HeliXonAI
CAMEO(Continous Automated Model EvaluatiOn),全球持续蛋白质结构预测竞赛,由瑞士生物信息研究所和巴塞尔大学联合举办,与CASP被认为是结构预测领域最重要的两项比赛。
但不同于CASP的是,CAMEO的参赛者需要每周预测20个由世界范围内的结构生物学家最新破解出结构的蛋白质的结构,比赛的得分与排名也会每周实时更新。
该竞赛吸引了全球生物计算领域的最顶尖选手。
诸如华盛顿大学蛋白质设计研究所的David Baker教授研发的RoseTTAFold,百度开发的PaFold,和腾讯研发的tFold等模型,都在其中竞逐。
而华深智药的结构预测平台HeliXonAI,已经连续四周在主要评价指标lDDT(Local Distance Different Test)上达到83.5分,持续排名世界第一。
在CAMEO的结果中,越靠右表示预测的结构越多,越靠上表示预测的结构越准……
而现在,牢牢地占据最右上角的就是HeliXonAI。
更令人惊喜的是,在上一周CAMEO发布的17个目标蛋白质上,HeliXonAI的平均lDDT预测精确度,达到了84.0——意味着对AlphaFold2的超越。
之前DeepMind团队公开的AlphaFold2模型预测精确度,评分在81.9。
并且在另一评价指标TM-score上,也有一致的结果。
HeliXonAI以91.6的评分,同样超越了AlphaFold2的85.6。
相比RoseTTAFold和PaFold的76分,更是数量级上的超越。
此外,在最新一周的标注为“困难” (hard) 的7个蛋白结构中,HeliXonAI更是进一步拉开差距,在TM-score上比第二名Alphafold2高出6分之多。
总之,不同层面的数据结果都在说明,全球蛋白质结构预测的王座,易主了。
HeliXonAI如何炼成?
众所周知,蛋白质在理解生命科学与药物开发中的地位举足轻重。为了执行特定功能,蛋白质必须折叠成对应的结构。
然而,理解蛋白质的三维空间结构一直是生物学中的重大挑战,已经困扰生物学家 50 多年…
直到 2020 年由DeepMind 团队开发的 AlphaFold2模型,在第十四届国际蛋白质结构预测竞赛(CASP14)上,几乎达到冷冻电子显微镜等实验技术的准确度。
一石激起千层浪,引领计算生物领域的标志性变革。
但AlphaFold2实际也并非完美,例如在同源信号较弱的情况下预测的误差较大,对于抗体可变区域的预测也精度欠佳。
华深智药团队,也是看到了可改进之处,着手开发人工智能药物开发平台——HeliXonAI。
该平台囊括了包含蛋白质结构预测在内的一整套生命建模算法体系,将被用于承接包含抗体设计,靶点发现等诸多挑战性任务。
同时,HeliXonAI的蛋白质结构预测算法在AlphaFold2的基础上,提出了诸多改进。
比如数据上利用数据蒸馏引入了更为庞大的无结构氨基酸序列数据库,并且在模型上设计了新颖的进化调整(Evolutionary Calibration)模块实现了对多比对序列的信息较正。
又比如对于空间坐标的优化,HeliXonAI引入了几何平滑(Geometric Smoothing)模块,利用几何深度学习的特性,和近一千层的深度,不断地将坐标优化到正确位置上。
这2大全新的模块的加入,能够迭代式地修复同源序列对比中的误差并相应地对所有原子几何位置做出对应的调整,这样就能更为有效地解决同源信号弱的问题,并在原子级别的细节上做出更精准的预测。
最终,在8块A100显卡上,经过连续接近3个多月的训练,HeliXonAI实现了模型预测能力指标上对AlphaFold2的超越。
当然,需要指出的是,如此成果并非只是3个月的冲刺,背后还有华深智药团队的多年积累。
CAMEO传送门:
https://www.cameo3d.org/modeling/1-week/difficulty/all/?to_date=2021-12-04