Nat. Biotechnol. | 利用蛋白语言模型的信号肽类型预测模型 SignalP 6.0

2022-03-25 13:24:59 浏览数 (1)

编译 | 余梁 审稿 | 陈梓豪 指导老师 | 闵小平

本文给大家介绍的是丹麦技术大学健康技术系生物信息部的Henrik Nielsen 课题组发表在 nature biotechnology 上的文章 《SignalP 6.0 predicts all five types of signal peptides using protein language models》。在这篇文章中,作者提出了一个机器学习模型 SignalP 6.0,它可以预测全部 5 种信号肽类型且适用于宏基因组数据。

1

背景

信号肽(Signal peptides,SPs)是短的氨基酸序列,它在生物组织中控制着蛋白质的分泌和移动。信号肽类型可以从序列数据中推测,但现有算法无法推测所有的信号肽类型(SignalP 5.0只能推测5种中的3种,Sec/SPIII 和 Tat/SPII 缺乏数据注释),因此作者提出了 SignalP 6.0 模型。该模型基于蛋白质语言模型(LMs),LMs利用了生命领域中数百万未注释的蛋白质序列的信息。由语言模型创建的语义表示可以捕捉到生物序列属性和结构,利用该表示可以预测信号肽类型,并且可以更好地外推到不同于创建模型时使用的蛋白质和未知来源的宏基因组数据。另外,它还可以识别信号肽的子区域。

2

方法

作者整理了一个含有信号肽的蛋白质序列数据集,并根据已知的信号肽类型属性定义了区域标记规则,如图 1 所示,5种信号肽共16421条细胞内序列和2615条跨膜序列(Sec/SPIII 和 Tat/SPII 的数据只有113和36条)。作者进行了三折交叉验证,在进行数据划分时,将同源序列划分在同一个数据区中,以便更精确地验证模型在未见序列上的表现。

图 1:5 种类型信号肽的区域结构

作者使用了一个在 UniRef100 数据集上预训练的 30 层的 BERT 模型。BERT 模型可以计算氨基酸的表示,从而得到一个与序列等长的序列隐藏状态,如图 2 所示。计算出的序列隐藏状态再输入到条件随机场(Conditional random field, CRF)中预测每个位置的区域概率和 SP 类型,如图 3 所示。

图 2:BERT 模型

图 3:SignalP 6.0架构

3

结果

图 4:SignalP 5.0 (灰色)与 SignalP 6.0在不同物种上探测不同类型信号肽对比

作者重新训练 SignalP 5.0,与 SignalP 6.0 进行对比。除了古生菌(Archaea)中的 Tat/SPI 类型之外,SignalP 6.0 预测表现均有提升,特别是在 Sec/SPIII 和 Tat/SPII 类型检测上,如图 4 所示。同时,SignalP 6.0 在预测切割位点(Cleavage sites,CSs)上精确率(Precison)有明显提高,如图 5 所示。

图 5:SignalP 5.0 (灰色)与 SignalP 6.0 在不同物种上预测切割位点对比

4

总结

本文提出了一个可预测所有信号肽类型的模型 SignalP 6.0,既可用于未知来源的序列,也可用于进化区别明显的蛋白。与之前的工作 SignalP 5.0 相比,SignalP 6.0 能检测所有的 SP,在预测 SP 和切割位点任务的表现也更好。

参考资料

Teufel, F., Almagro Armenteros, J.J., Johansen, A.R. et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nat Biotechnol (2022).

https://doi.org/10.1038/s41587-021-01156-3

代码

https://services.healthtech.dtu.dk/service.php?SignalP-6.0

0 人点赞