Nat. Comm. | 超算+AI: 为天然产物生物合成路线规划提供导航

2022-11-28 16:30:46 浏览数 (1)

导读

天然产物(Natural Products)是临床药物开发的主要来源,解析天然产物的生物合成途径是实现生物合成中最基础的一步。然而,目前超过90%的天然产物的生物合成途径仍然未知。中山大学药学院巫瑞波教授课题组与国家超算广州中心杨跃东教授课题组联合星药科技、美国麻省理工学院和佐治亚理工学院,依托“天河二号”开发了基于深度学习的天然产物生物合成途径导航器BioNavi-NP, 并在多个公开测试集中获得出色验证,是超算 AI开展科技创新的又一个实践。该研究对天然产物生源途径的发现,以及异源生物合成途径的重构具有重要意义。相关成果6月正式发表在国际知名期刊《Nature Communication》。

天然产物(Natural Products)是临床药物开发的主要来源,1981-2020这三十年间获批上市的小分子药物中超过60%是天然产物及其衍生物或类似物。由于从自然界直接提取的方法往往会对生物多样性造成破坏,而天然产物结构中多样的环体系和手性中心导致其化学合成难度较大,因此异源生物合成是获得复杂天然产物的重要手段。解析天然产物的生物合成途径是实现异源生物合成中最基础的一步,然而现有生物代谢反应数据库(KEGG,MetaCyc,MetaNetX等)中仅涉及到约3万个天然产物,远小于目前已知的天然产物数目(超过30万)。大量天然产物的生物合成途径目前仍然未知,这极大地限制了复杂天然产物的生物合成。

目前虽然已有基于数据库和反应规则的生物合成路径预测工具,但由于本身已知的酶反应数量不足,且由于不同酶的催化杂泛性和专一性也不同,导致现有反应规则(模板)无法很好地反映酶的催化功能。因此,对于以酶催化反应为主的生物合成来说,现有基于模板的方法给出的反应路径在实际中常常无法通过相应的酶来催化,并且对于许多生源合成步骤较长,结构较复杂的天然产物,并没有相似度较高的反应模板与之匹配。同时单步反应的预测误差在多步的反应路径预测中会不断积累,因此对于天然产物生物合成路径预测来说,不仅需要提高单步反应的预测精度,同时还需要配合高效的搜索算法对每一步的候选反应进行高效且准确的筛选。

为了解决这一问题,中山大学药学院巫瑞波教授与国家超级计算广州中心杨跃东教授课题组联合星药科技、美国麻省理工学院和佐治亚理工学院,结合团队多年的天然产物研究经验和生物医药智能算法开发能力,基于超算的强大计算和存储能力,提出一种深度学习驱动的生物逆合成路径导航工具BioNavi-NP。如图1所示,该框架借鉴了先前化合物有机反应逆合成预测算法SCROP (Zheng et al., JCIM, 2020)的设计,首先训练一个生物Transformer神经网络来进行单步生物逆合成预测,即生成任意目标天然产物的候选前体。在训练好的单步生物反应预测模型的基础上,研究者们进一步开发了一个自动逆向生物合成路线规划系统BioNavi-NP。该系统通过深度学习驱动的基于与或树(AND-OR tree)的搜索算法解决合成途径的大量分支可能性造成的组合爆炸问题,从而能够高效且准确地规划出合理的天然产物生源合成途径。给定目标天然产物,BioNavi-NP可在几分钟内给出其到指定分子砌块(building block)的多条路径,并根据已知反应或酶对路径进行打分排序。大量的实验表明,相较于目前最先进的生物合成路径预测方法,BioNavi-NP在内部测试集和外部独立测试集中都表现出了明显的竞争优势。

图1. BioNavi-NP模型示意图

具体来说,在内部测试集中, BioNavi-NP成功找到了368个测试天然产物中90.2%的生物合成途径,并命中了72.8%的化合物的基本构建块(building block),远超出基于模板的搜索方法以及其他搜索算法变体,证明了其在生物逆合成途径阐明和重构方面的潜力。预测对比结果见图2。在外部独立测试集的152个天然产物中,BioNavi-NP更是以94.7%的预测成功率超过目前的最优预测方法RetroPathRL(83.6%),计算效率上更是优于RetroPathRL,每个天然产物平均仅需要花费3分钟左右的时间进行预测(见原始论文正文及其附件)。

图2. BioNavi-NP在Metacyc天然产物测试集上与最新预测方法的比较结果。

研究者们利用该模型构建了一个用户友好的互动网站(http://biopathnavi.qmclab.com/)。用户仅需要输入感兴趣的天然产物分子,配合基本的参数,便可在数分钟内得到其多条预测的生源合成途径。对于多步骤生物反合成路线中的每个生物合成步骤,研究者们通过网站预先嵌入的酶预测工具Selenzyme和E-zyme进一步评估合成所需要的酶。预测的反应途径将按照计算成本、长度和生物体特定的酶进行分类。

图3:BioNavi-NP网站输出结果示意图。

BioNavi-NP网站对目标化合物的预测结果如图3所示,对于来自多种合成途径的复杂分子(如novobiocic acid和sterhirsutin J),BioNavi-NP能够正确对其结构进行拆分并分别找到其对应的分子砌块。在对戊二酸(glutarate)的生物合成途径预测结果中,BioNavi-NP不仅顺利预测出了已知的两条路径(分别排序第三和第七),并且结果中排序第四的路径与不久前Wang等人(ACS Synth. Biol. 2017, 6, 1922-1930)在大肠杆菌构建的新颖路径基本一致(只缺少部分中间步骤)。这说明BioNavi-NP不仅能对天然产物未知的生源途径做出预测,还能对其异源生物合成途径的重构提供重要参考。

本研究提出了一种新颖的端到端深度学习框架BioNavi-NP,利用生物Transformer神经网络及与或树(And-Or-Tree)驱动的深度搜索算法预测天然产物的生物合成途径。在已知的天然产物生物合成途径理论预测工具中,这是第一个无需模板的逆生物合成全路径预测模型。实验评估表明,BioNavi-NP模型在内部测试集及多个外部独立公共测试集上都显示出了优异的性能。网站工具的搭建以及酶预测工具的嵌入,使得研究者们能够便利地使用该工具进行合成生物学的研究。文末,作者对当前BioNavi-NP模型的一些局限性也作了讨论。未来,该框架将嵌入多种路径打分排序方法以及原子映射技术,以进一步提高模型的可用性及可解释性,进而推动天然产物生物合成新途径的发现。

参考资料

Zheng, S., Zeng, T., Li, C. et al. Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP. Nat Commun 13, 3342 (2022).

https://doi.org/10.1038/s41467-022-30970-9

BioNavi-NP网站链接

http://biopathnavi.qmclab.com/

0 人点赞