接力AlphaFold!星药科技重磅发布TBind-开启分子蛋白复合物结构预测新纪元

2022-11-16 08:46:09 浏览数 (2)

|导语|

继2018年、2020年的两代AlphaFold的横空出世后,蛋白质结构预测已经接近实验精度,为计算赋能药物研发领域打下了坚实基础。在药物研发漫长的研发环节中,分子与蛋白质的相互作用预测是下一个计算赋能药物研发领域的“圣杯”。近日,星药科技预发表了 Trigonometry Aware Neural NetworK for Drug-Protein Binding Structure Prediction。该模型是全球首个能同时预测小分子和靶蛋白三维结合构象和结合亲和力的深度表征学习框架,大幅超越现存方法的最好结果。TBind采用端到端的数据驱动范式,结合物理启发式的几何图神经网络,打通了复合物三维结合模式及结合强度的双重预测,实现了对国际商业分子对接软件精度和效率的双超越,为分子蛋白相互作用预测提供了国产首个突破性方案。继AlphaFold之后, 将计算驱动的药物研发带入新的纪元。

药物发现是一项极具挑战性的任务。在庞大的化学空间(约1060个类药物分子)中,只有一小部分能与特定的生物靶点结合并产生治疗效果。目前的药物一般以蛋白质作为靶分子,通过设计与它相互作用的化合物小分子来治疗疾病。因此,发现能与蛋白质分子相互作用的小分子化合物并阐明其与靶蛋白的结合模式对于新药研发至关重要。

目前,小分子和蛋白质的结合模式很大程度上是通过使用实验和计算方法实现的,这些方法可以帮助了解小分子配体和其靶蛋白之间的关键相互作用,以指导分子的优化,达到期望的效力和选择性。常见的实验方法如X射线衍射、核磁共振晶体学,以及最近的冷冻电镜(EM)等技术已经产生了数以万计的小分子-蛋白复合物结构,为阐明药物和蛋白质相互作用的生物学机制打下了坚实的基础。同样,计算方法如分子对接技术,使研究者们能够探索尚未形成共晶结构的新靶标与巨量尚未合成的虚拟化合物之间的相互作用关系,也在小分子-蛋白质结合模式研究上发挥着重要作用。

分子对接软件的现状与发展

分子对接技术有着20年以上的历史,已经成为了基于靶点的药物设计(Target-based Drug Discovery, TDD)范式中的一部分。对接软件的核心主要有两部分:一是设计力场,对药物-蛋白复合物结构打分。二是设计采样算法,对复合物构象采样。在传统力场设计中,为了保证打分速度,将本质上是一个多体问题的相互作用近似为基于原子对能量的线性累加。近几年在机器学习的加持下,分子对接方法在对多体问题的近似上虽然有了更好的表现,但并没有从根本上改变一直以来基于原子对能量的线性累加打分、再通过构象采样获得最终复合物的流程。这使得分子对接方法的精度和速度都已无法充分满足现代药物设计的需求。

2018年,DeepMind团队推出的AlphaFold首次亮相便在国际蛋白结构预测大赛CASP13上以较大优势摘取桂冠;两年后,AlphaFold 2通过精妙的模型设计,使得蛋白质结构预测领域迈出了惊人的一步,达到了与实验精度相近的水平。两代AlphaFold通过深度学习方法,几乎解决了蛋白质结构预测这一困扰了科学家们70年的难题。而下一个计算驱动的药物研发领域的“圣杯”,就是横亘在药物研发与蛋白结构之间的关键问题:

是否能通过AI方法准确地预测出小分子和蛋白质的相互作用关系,即两者之间的结合模式及结合强度?

小分子-蛋白结合预测新范式

为了解决上述痛点,赋能新药研发,继四月份与阿斯利康全球研发中心联合发布了基于结构的深度亲和力预测模型STAMP-DPI,星药科技联合复旦大学、中山大学研究人员,最新发布了基于三体深度神经网络(Trigonometry Aware Neural NetworK)的TBind v1.0.1,专攻小分子配体-蛋白质复合物三维结构预测。不同于传统计算化学方法和近年来兴起的单一亲和力预测模型,TBind采用端到端的数据驱动范式,结合物理启发式的几何图神经网络,打通了复合物三维结合模式及结合强度的双重预测,实现了对商业级分子对接软件精度、速度的双超越,为分子蛋白复合物结构预测提供了首个突破性国产方案。

受启发于AlphaFold2的氨基酸内“Triangle Multiplicative Update”架构,TBind将该模块有机地拓展到小分子和靶蛋白的分子间相互作用中,进行了多处升级,使得模型突破传统分子间力场的限制,有了直接拟合多体效应的能力且并未显著增加模型的复杂性。在分子间的三体神经网络模块基础上,TBind还自主研发了基于对比学习和分而治之思想的蛋白区块化技术,根据蛋白结构功能区实行分别关注,对保守区域进行局部信息提取,在结构数据下实现了隐式数据增强的效果; 研究小组还提出了最大边缘对比性亲和力损失函数(max-margin contrastive affinity loss)以驱动模型充分利用亲和力信息和全局三维结构信息。对于局部信息和全局信息的权衡极大程度上提高了TBind的精度和泛化性能,使其能够对新颖的蛋白口袋和新型的结合模式做出快速且有效的预测。

TBind模型示意简图。模型的输入为一个蛋白质三维结构和分子三维结构,输出是两者之间的结合模式和结合强度。

摒弃传统采样方法

全面超越行业表现

在行业标准测试集PDBBind上,TBind的性能大幅超过了现存最优的深度学习方法(由MIT Tommi Jaakkola组领衔开发的EQUIBIND,ICML 2022[1])以及多款国际商业、学术对接软件(包括GLIDE, VINA, SMINA, GINA等)。TBind使用2020年以前发表的17787个小分子复合物三维结构进行训练。在对2020年之后发布的142个训练集未见过的新蛋白质形成的复合三维结构预测任务中,TBind将LigandRMSD小于5Å的比例从约30%提升至56% [2];对于结合中心的预测与真实中心距离小于5Å的比例更是从48%提升至76%。

在PDBBind新蛋白测试集中,预测结构与真实共晶结构的RMSD小于5Å的比例。TBind显著优于其他模型。

在PDBBind新蛋白测试集中,预测配体质心与真实质心距离小于5Å的比例。TBind显著优于其他模型。

由于模型摒弃了繁琐的传统采样方法,利用数据驱动的AI势能面进行结构生成,所以在预测和筛选的效率上也得到了大幅度提升,全局对接的任务中每个分子仅需要0.5秒钟,是学术软件VINA的400分之一,商业软件GLIDE的2000分之一。

完成一次对接打分的时间。TBind仅需要0.5秒钟完成预测,显著快于传统对接方法。

多场景应用

覆盖正构和别构口袋

1. 局部对接(local docking)任务比较

TDD常见的场景之一是已知蛋白口袋的情况下利用计算工具进行局部对接以预测新分子和靶蛋白的相互作用关系。在第一个例子中,用于治疗慢性髓性白血病(CML)的达沙替尼(Dasatinib)与蛋白ABL1结合结构(PDB 7N9G,于2022年4月公开)中GLIDE预测构象与真实结晶构象头尾调换,导致预测结构与真实结构的RMSD差异高达11Å。而TBind正确地预测出了分子的构象,与晶体结构的RMSD差异仅1.1Å 。第二个例子是2022年6月刚刚公开的TRK蛋白与一个新型Type-II型抑制剂相互结合的结构(PDB 7XAF)。GLIDE的预测结果同样和真实构象有比较大的偏差,而TBind和真实结构几乎一致。

2. 全局对接(global docking)任务比较

在First-in-Class的管线项目中,对于新靶蛋白的开发时常会出现结合位点不明确的情况,传统对接方法往往很难判断出正确的结合模式。由于模型使用了蛋白区块化技术,TBind具备更强的全局预测能力,从而能够更好地捕捉别构口袋的信息。PDB 6K1S和6QRG是PDBBind测试集中的两个代表案例。PRMT5蛋白拥有多个结合口袋,其新发布的PDB共晶结构6K1S发现了一个全新结合位点。TBind虽然从未见过结合该别构口袋的小分子,但是仍然正确的定位到了真实结合的位置。而其他方法则更倾向于常见的正构位点。在第二个案例中,TrmD蛋白和其配体小分子皆与训练集不同源,TBind依旧可以正确找到结合位点,而传统分子对接方法无法找到正确的结合口袋[2]。

开源版本 商业版本

满足不同需求

目前研究团队在GitHub发布了免费开源测试版本TBind v0.5.0,并提供了案例展示,点击文末“阅读原文”。

为方便大家快速尝鲜,团队提供了一个简单使用案例,只需要输入蛋白结构和分子序列表达式,即可以进行深度分子对接。(详情请见TBind Github)

TBind商业版本v1.0.1已经部署于星药科技打造新一代智能计算平台M1,可在短时间内完成亿级超高通量药物虚拟筛选,赋能苗头化合物发现、先导化合物优化等药物研发多个关键环节。商业合作伙伴请联系m1@galixir.com获取更多使用信息。

泛化TBind能力

或可带来更多惊喜

TBind方法不仅可以应用在小分子和蛋白结合领域,也可以泛化到蛋白复合物结合、核酸蛋白结合等分子间相互作用问题上。星药科技将继续保持创新精神,将AI技术与药物实践场景深度结合,不断提升预测精度与速度,支持更多的应用场景。

TBind v1.0.1的发布,标志着星药科技已具备国际顶尖的小分子蛋白结合预测能力。作为小分子药物设计的关键环节,TBind已与星药科技的蛋白结构建模算法[3], 分子设计算法[4,5],性质预测算法[6,7],逆合成分析算法[8,9]及智能计算平台M1有机结合,配合生物实验平台,形成“AI-计算-实验迭代”三位一体的药物研发新范式。星药科技将继续聚焦能为医药产业带来更多增益的差异化管线,尤其是未成药、难成药靶点开发项目,高效精准预测分子相互作用,拓展传统化学的想象空间,探索更多新颖的药物分子。让世界远离病痛,让新药触手可及。

引用

[1]Stärk, Hannes, et al. "Equibind: Geometric deep learning for drug binding structure prediction." ICML (2022).

[2]Wei, Lu, et al. “TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction” bioRxiv (2022).

[3]https://mp.weixin.qq.com/s/FR0ZS5NMG-xpzVmgUYAliQ

[4]Yang, Yuyao, et al. "SyntaLinker: automatic fragment linking with deep conditional transformer neural networks." Chemical science 11.31 (2020): 8312-8322.

[5]Wang, Jiahao, et al. "Meta learning for low-resource molecular optimization." Journal of Chemical Information and Modeling 61.4 (2021): 1627-1636.

[6]Chen, Jianwen, et al. "Learning Attributed Graph Representations with Communicative Message Passing Transformer." IJCAI (2021).

[7]Rao, Jiahua, et al. "Molrep: A deep representation learning library for molecular property prediction." bioRxiv (2021).

[8]Shuangjia, Zheng, et al. “Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP” Nature Communication (2022)

[9]Chen, Binghong, et al. "Retro*: learning retrosynthetic planning with neural guided A* search." International Conference on Machine Learning. ICML, 2020.

关于星药科技

星药科技(Galixir)成立于2019年,是一家使用尖端人工智能技术赋能药物研发的公司。星药通过使用人工智能的前沿算法,结合计算化学、药物化学和生物学的工具及经验,全方位攻克小分子药物早期研发流程中的疑难问题,快速发现活性高、成药性好且结构新颖的候选分子。星药正在和国内外药企以及研究机构合作推进多个药物研发管线,覆盖中枢神经系统疾病、自体免疫类疾病、肿瘤、呼吸系统疾病等不同疾病领域,作用机制包括抑制剂和激动剂等不同类别。星药将单个临床前药物研发管线的成本和时间大幅降低和缩短,使得同时储备多条药物研发管线、优化整体战略布局都成为可能。

0 人点赞