Bioinformatics | BERT4Bitter:改进苦味肽预测的基于Transformer(BERT)模型的双向编码器

2021-06-24 18:31:26 浏览数 (1)

作者 | 张鑫 编辑 | 龙文韬 校对 | 李仲深

今天给大家介绍的是玛希多大学数据挖掘和生物医学信息学中心发表在Bioinformatics上的文章“BERT4Bitter: a bidirectional encoder representations from transformers (BERT)-based model for improving the prediction of bitter peptides”众所周知,许多药物固有地具有苦味,并且强烈的努力旨在淡化苦味以改善味道,从而改善药物摄入的依从性,因此,开发用于预测肽苦味的快速和准确的鉴定工具是药物开发和营养研究中的重要组成部分。目前只有一种计算方法,即iBitter-SCM,交互验证和独立测试集的准确率分别为0.871和0.844。虽然iBitter-SCM产生了相当高的预测精度,但它的整体预测性能仍有改进的空间,因此非常希望开发一种新的基于机器学习的预测器。本研究提出BERT苦味方法作为第一个基于Transformer(BERT)的预测苦味肽的双向编码器表示。在本研究中,每个肽序列被视为基于自然语言处理技术的句子,其中20个氨基酸中的每一个都被视为单词DSDFF自动生成特征描述符,而不需要特征编码的系统设计和选择。

一、研究背景

动物需要消耗食物来维持生命,并且在这样做的过程中可能摄入可能威胁生命的有毒物质。大多数动物天生厌恶苦味物质,以保护自己免受有毒植物和环境毒素的伤害。相比之下,哺乳动物的味觉更先进,它们能够区分五种基本的味觉形式,包括甜、苦、酸、咸和鲜味。虽然异常或极端的苦味往往与饮食危险有关,但食用和有益植物(如黄瓜、南瓜、西葫芦、南瓜、莴苣、菠菜和甘蓝)也会产生苦味。因此,开发用于预测肽苦味的快速和准确的鉴定工具是药物开发和营养研究中的重要组成部分。

二、模型与方法

图一.BERT4Bitter框架图

基于自然语言处理的方法已经成功地应用于药物发现和生物信息学。基于自然语言处理的最有用和最有益的方法之一是将原始输入数据自动表示为一组可解释的特征。该模型首先采用Pep2Vec和FastText形式的自然语言处理将肽序列转化为向量表示,然后再接入Bi-LSTM,目的是利用自适应选通机制解决网络结构中的消失梯度问题。LSTM是递归神经网络(RNN)的改进,可以自然地学习长期依赖信息,最后接入全连接层。

三、实验结果

为了展示该模型的优越性,我们将它的预测性能与其他著名的最大似然估计算法进行了比较。简而言之,五个流行的基于序列的特征描述符由AAC、AAI、DPC、PseAAC和TPC组成,用于训练这十个最大似然算法。同时还比较了三种NLP编码的能力,三种受自然语言处理启发的特征编码(即FastText、Pep2Vec和TFIDF)使用十种众所周知的最大似然算法(即kNN、DT、ETree、LR、MLP、NB、RF、SVC、SVM和XGB)成对评估,以了解每种特征对苦味肽预测的贡献。

图二.三种NLP和十种似然算法结合比较

据观察,三个排名靠前的ML分类器由ETree-Pep2Vec (0.855,0.718)、ETree-TFIDF (0.846,0.697)和RF-Pep2Vec (0.844,0.691)组成。同时也将NLP与DL算法(CNN、LSTM、BERT)结合进行比较,通过10倍交叉验证和独立测试评估性能。

对于表2所示的独立测试结果,对交叉验证结果进行了类似的观察。特别是,可以注意到BERT的性能优于其他两种DL方法。综上所述,这些结果表明基于BERT的模型比其他基于DL的模型更有效地预测苦味肽。为了评估所提出的BERT4Bitter的预测性能,我们将它的性能与80个最大似然分类器进行了比较,这些最大似然分类器是使用10个众所周知的最大似然算法和3个NLP算法和5个基于序列的特征编码。所提出的Bert4Bite比众所周知的ML分类器具有更强的识别能力。

图三.BERT4Bitter和30个具有最高MCC值的顶级强大的最大似然分类器的比较

四、总结

在这项研究中,我们提出了一种新的预测因子,称为BEt4苦味素,用于识别苦味肽。简而言之,BERT4Bitter是基于BERT的模型,它可以直接从原始肽序列中自动生成特征描述符,而不需要任何系统的设计和特征编码的选择。此外,由TFIDF、Pep2Vec和FastText组成的三种受NLP启发的特征编码被用于表示肽序列。据我们所知,这是第一项使用NLP启发的模型和NLPinspired特征编码来识别肽苦味的研究。大量的经验基准测试实验表明,BERT4Bitter比流行的基于ML的模型具有更高的性能。


参考文献

PhasitCharoenkwan, Chanin Nantasenamat, Md Mehedi Hasan,Balachandran Manavalan, andWatshara Shoombuatong.”BERT4Bitter: a bidirectional encoder representationsfrom transformers (BERT)-based model for improving the prediction of bitterpeptides”Bioinformatics, 2021, 1–7


0 人点赞