背景
DNA、RNA 和蛋白质是三种重要的生物大分子,传统的观念认为 DNA 携带着遗传信息,蛋白质是体现生物功能的分子,而 RNA 在这二者间起传递遗传信息的桥梁作用。随着新一代测序技术的发展,越来越多的生物基因组被测序出来,而且,随着 RNAseq 技术的发展,我们对非编码 RNA 的认识也逐渐深入,甚至改变了一些我们传统的认识。人体每个细胞都具有相同的染色体,为什么最终会分化成不同的形态执行不同的功能呢?这些都是由于转录翻译的 RNA 的不同。
通常我把 RNA 按照是否编码蛋白质分为两大类:
1、Coding RNA,也就是我们经常说的 mRNA。
2、Non-CodingRNA,如核糖体 RNA、转运 RNA、核仁 RNA、小 RNA 等。
基因组上除了包含大量编码基因的 mRNA 外,还包含大量非编码 RNA,也叫做 ncRNA。由于很多 ncRNA 都有固定的结构,例如核糖体 RNA 比较保守,而转运 RNA 具有倒三叶草二级结构,因此这两种 ncRNA 的分析直接通过软件预测即可,准确性非常高。由于核糖体 RNA属于重复序列,如果能够拼接出核糖体 RNA,也是作为基因组拼接效果的一个衡量指标。
一、核糖体 RNA 预测
1.1 安装软件
代码语言:javascript复制#安装软件 rnammer
#首先需要下载安装hmmer
mamba install -y hmmer=2.3.2
mamba install -y perl-xml-simple
mamba install -y perl-getopt-long
#rnammer 需使用教育edu邮箱单独申请
https://services.healthtech.dtu.dk
#下载之后解压缩
mkidr rnammer-1.2
tar zxvf rnammer-1.2.src.tar.gz -C rnammer-1.2
#修改rnammer程序路径
$INSTALL_PATH
$HMMSEARCH_BINARY
1.2 运行软件
代码语言:javascript复制#运行程序
mkdir ncrna;cd ncrna;
rnammer -S bac -m tsu,lsu,ssu -gff MGH78578.gff -f MGH78578_rrna.frn MGH78578.fa
-S:物种类型,古细菌,细菌或者真菌
-m:需要 rRNA 类型,如果真要 16S,则单独选择 lsu
-gff:输出 gff 格式结果
-f:输出 fasta 格式序列
二、转运 RNA 预测
2.1 安装软件
代码语言:javascript复制#安装软件 trnascan-se
mamba install -y trnascan-se
2.2 运行软件
转运 RNA 可以通过 tRNAscan 软件进行预测。
代码语言:javascript复制#检查默认 perl 版本
perl ~/miniconda3/bin/tRNAscan-SE
perl ~/miniconda3/bin/tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure
-m stat.list MGH78578.fasta
-B :物种为细菌
-A :物种为古细菌
-O :输入序列为细胞器
-G :包括全部类型
-o:输出结果
-f:tRNA 二级结构
-m:统计结果
2.3 提取序列
代码语言:javascript复制#提取序列
perl get_tRNA.pl tRNAScan.out MGH78578.fasta MGH78578_trna.ffn
提取序列程序
代码语言:javascript复制#!/usr/bin/perl
if (@ARGV !=3) {
die "This program is used to get tRNA sequence
Usage:perl $0 <tRNAScan.out> <genome.fasta> <result>n";
}
open(A,"$ARGV[1]") ;
while (<A>) {
chomp;
$_=~s/[^ACGTNXd]$//gi;
if($_=~/^>/){
@temp=split;
$temp[0]=~s/^>//;
$name=$temp[0];
}else{
$genome_seq{$name}.=$_;
} }
close(A);
open(A,"$ARGV[0]") ;
open O,">$ARGV[2]";
$flag=0;
while (<A>) {
chomp;
if($_=~/^-----/){
$flag=1;
}else{
if($flag==1){
@temp=split;
if($temp[2]<$temp[3]){
$trna=uc(substr($genome_seq{$temp[0]},$temp[2]-1,$temp[3]-$temp[2] 1));
$trna=~s/(.{50})/$1n/g;
print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
$temp[5]n$trnan";
}else{
$trna=reverse(uc(substr($genome_seq{$temp[0]},$temp[3]-1,$temp[2]-$temp[3] 1))
);
$trna=~tr/ACGT/TGCA/;
$trna=~s/(.{50})/$1n/g;
print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
$temp[5]n$trnan";
}
}
} }
close(A);
close O;
2.4 查看二级结构
http://rna.tbi.univie.ac.at/forna/
序列格式
代码语言:javascript复制#在线分析
>molecule_name
CGCUUCAUAUAAUCCUAAUGAUAUGGUUUGGGAGUUUCUACCAAGAGCCUUAAACUCUUGAUUAUGAAGUG
...(((((((..((((((.........))))))......).((((((.......))))))..))))))...
三、 其他 ncRNA
1、lncRNA
网址:http://www.noncode.org/
2、lncATLAS
lncRNA 亚细胞定位的数据库
网址:http://lncatlas.crg.eu/
3、miRNA
网址: http://www.mirbase.org/
4、ceRNA
ceRNA 功能探究数据库
网址: http://starbase.sysu.edu.cn/
5、circBase-
网址: http://www.circbase.org/
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。
代码语言:javascript复制sx.voiceclouds.cn
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。