非编码RNA预测:rRNA

2022-05-05 13:59:09 浏览数 (2)

非编码RNA(ncRNA)是指一类本身不携带翻译为蛋白质的遗传信息(也即非mRNA),但可以执行多种生物学功能的RNA分子,对于微生物而言,非编码RNA主要包括核糖体RNA(rRNA)、转运RNA(tRNA)、细胞核小分子RNA(snRNA)、核仁小RNA(snoRNA)、细胞质小分子RNA(scRNA)、微小RNA(miRNA)、小分子干扰RNA(siRNA)等。按照长度划分大致可以分为两类:小于50nt的miRNA、siRNA和50-500nt的rRNA、tRNA、snRNA、snoRNA等。对于细菌而言,ncRNA主要指tRNA、rRNA、sRNA三种,其中常见以tRNA和rRNA为主。

在往期文章基因组编码基因预测中介绍了CDS的预测,今天为大家介绍ncRNA的预测。由于ncRNA种类繁多,特征各异,缺少编码蛋白质的基因所具有的典型特征,现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA,如tRNAScanSE搜索tRNA、snoScan搜索带C/D盒的snoRNAs、SnoGps搜索带H/ACA盒的snoRNAs、mirScan搜索microRNA等等。

rRNA是细胞内含量最多的一类RNA,约占RNA总量的82%。它与蛋白质结合而形成核糖体,其功能是在mRNA的指导下将氨基酸合成为肽链。根据分子量不同,原核生物的rRNA可分三类:5S rRNA、16S rRNA和23S rRNA。真核生物的rRNA则有四类:5S rRNA、5.8S rRNA、18S rRNA和28S rRNA。原核生物和真核生物的核糖体均由大、小两种亚基组成。

RNAmmer为一款专门的rRNA预测工具,该软件所使用的隐马尔科夫模型的训练数据集选用5S rRNA数据库和欧洲rRNA数据库,具有极高的准确率。它既可以用来预测原核生物的5S、16S、23S rRNA,也可以用来预测真核生物的5S、5.8S、18S、28S Rrna,而且是不基于参考序列的从头预测。该工具官网主页如下:

http://www.cbs.dtu.dk/services/RNAmmer/

最新下载地址:

https://services.healthtech.dtu.dk

要想下载本地使用需首先在网站填写姓名、邮箱、机构等信息进行申请,之后会将软件下载链接会发送至邮箱。需要首先安装Hmmer,然后RNAmmer软件包下载解压后就可使用。其使用方法如下所示:

代码语言:javascript复制
rnammer -S bac -m lsu,ssu,tsu -xml out.xml -gff out.gff -h out.hmmreport -f out.rRNA.fasta genome.fasta
-S    指定输入序列的物种所属的界:古菌arc、细菌bac或真核euk;
-m    所需要预测的rRNA种类:'tsu'为5/8s rRNA,'ssu'为16/18s rRNA,'lsu'为23/28s rRNA。如果全部进行预测,则设置为为'tsu,ssu,lsu';
-multi  并行运算,预测正反两条链上所有的rRNA,最多并行运行6个计算,相当于-m lsu,ssu,tsu;
-f    生成的rRNA的fasta结果文件名
-h    生成的hmm结果报告文件名
-gff    生成的rRNA的gff2文件名
-xml  生成的xml结果文件名

对细菌基因组序列进行预测,如下所示:

代码语言:javascript复制
rnammer -S bac -m lsu,ssu,tsu -gff twk.rRNA.gff -f twk.rRNA.fasta -h twk.rRNA.hmmreport new.scaffolds.fasta

在gff和fasta文件中可以看到5S、16S、28S rRNA的预测结果及其序列,如下所示:

在细菌基因组中,一般23S rRNA与5S rRNA是紧挨在一起的,而其与16S 人RNA之间则隔着较长的序列片段。

END

0 人点赞