在往期文章基因组编码基因预测中介绍了CDS的预测,今天为大家介绍ncRNA的预测。由于ncRNA种类繁多,特征各异,缺少编码蛋白质的基因所具有的典型特征,现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA,如tRNAScanSE搜索tRNA、snoScan搜索带C/D盒的snoRNAs、SnoGps搜索带H/ACA盒的snoRNAs、mirScan搜索microRNA等等。
rRNA是细胞内含量最多的一类RNA,约占RNA总量的82%。它与蛋白质结合而形成核糖体,其功能是在mRNA的指导下将氨基酸合成为肽链。根据分子量不同,原核生物的rRNA可分三类:5S rRNA、16S rRNA和23S rRNA。真核生物的rRNA则有四类:5S rRNA、5.8S rRNA、18S rRNA和28S rRNA。原核生物和真核生物的核糖体均由大、小两种亚基组成。
RNAmmer为一款专门的rRNA预测工具,该软件所使用的隐马尔科夫模型的训练数据集选用5S rRNA数据库和欧洲rRNA数据库,具有极高的准确率。它既可以用来预测原核生物的5S、16S、23S rRNA,也可以用来预测真核生物的5S、5.8S、18S、28S Rrna,而且是不基于参考序列的从头预测。该工具官网主页如下:
http://www.cbs.dtu.dk/services/RNAmmer/
最新下载地址:
https://services.healthtech.dtu.dk
要想下载本地使用需首先在网站填写姓名、邮箱、机构等信息进行申请,之后会将软件下载链接会发送至邮箱。需要首先安装Hmmer,然后RNAmmer软件包下载解压后就可使用。其使用方法如下所示:
代码语言:javascript复制rnammer -S bac -m lsu,ssu,tsu -xml out.xml -gff out.gff -h out.hmmreport -f out.rRNA.fasta genome.fasta
-S 指定输入序列的物种所属的界:古菌arc、细菌bac或真核euk;
-m 所需要预测的rRNA种类:'tsu'为5/8s rRNA,'ssu'为16/18s rRNA,'lsu'为23/28s rRNA。如果全部进行预测,则设置为为'tsu,ssu,lsu';
-multi 并行运算,预测正反两条链上所有的rRNA,最多并行运行6个计算,相当于-m lsu,ssu,tsu;
-f 生成的rRNA的fasta结果文件名
-h 生成的hmm结果报告文件名
-gff 生成的rRNA的gff2文件名
-xml 生成的xml结果文件名
对细菌基因组序列进行预测,如下所示:
代码语言:javascript复制rnammer -S bac -m lsu,ssu,tsu -gff twk.rRNA.gff -f twk.rRNA.fasta -h twk.rRNA.hmmreport new.scaffolds.fasta
在gff和fasta文件中可以看到5S、16S、28S rRNA的预测结果及其序列,如下所示:
在细菌基因组中,一般23S rRNA与5S rRNA是紧挨在一起的,而其与16S 人RNA之间则隔着较长的序列片段。
END