ncRNA分析

2022-10-25 19:02:31 浏览数 (1)

背景

DNA、RNA 和蛋白质是三种重要的生物大分子,传统的观念认为 DNA 携带着遗传信息,蛋白质是体现生物功能的分子,而 RNA 在这二者间起传递遗传信息的桥梁作用。随着新一代测序技术的发展,越来越多的生物基因组被测序出来,而且,随着 RNAseq 技术的发展,我们对非编码 RNA 的认识也逐渐深入,甚至改变了一些我们传统的认识。人体每个细胞都具有相同的染色体,为什么最终会分化成不同的形态执行不同的功能呢?这些都是由于转录翻译的 RNA 的不同。

通常我把 RNA 按照是否编码蛋白质分为两大类:

1、Coding RNA,也就是我们经常说的 mRNA。

2、Non-CodingRNA,如核糖体 RNA、转运 RNA、核仁 RNA、小 RNA 等。

基因组上除了包含大量编码基因的 mRNA 外,还包含大量非编码 RNA,也叫做 ncRNA。由于很多 ncRNA 都有固定的结构,例如核糖体 RNA 比较保守,而转运 RNA 具有倒三叶草二级结构,因此这两种 ncRNA 的分析直接通过软件预测即可,准确性非常高。由于核糖体 RNA属于重复序列,如果能够拼接出核糖体 RNA,也是作为基因组拼接效果的一个衡量指标。

一、核糖体 RNA 预测

1.1 安装软件

代码语言:javascript复制
#安装软件 rnammer
#首先需要下载安装hmmer
mamba install -y hmmer=2.3.2
mamba install -y perl-xml-simple
mamba install -y perl-getopt-long

#rnammer 需使用教育edu邮箱单独申请
https://services.healthtech.dtu.dk

#下载之后解压缩
mkidr rnammer-1.2
tar zxvf rnammer-1.2.src.tar.gz -C rnammer-1.2

#修改rnammer程序路径
$INSTALL_PATH
$HMMSEARCH_BINARY

1.2 运行软件

代码语言:javascript复制
#运行程序
mkdir ncrna;cd ncrna;
rnammer -S bac -m tsu,lsu,ssu -gff MGH78578.gff -f MGH78578_rrna.frn MGH78578.fa

-S:物种类型,古细菌,细菌或者真菌

-m:需要 rRNA 类型,如果真要 16S,则单独选择 lsu

-gff:输出 gff 格式结果

-f:输出 fasta 格式序列

二、转运 RNA 预测

2.1 安装软件

代码语言:javascript复制
#安装软件 trnascan-se
mamba install -y trnascan-se

2.2 运行软件

转运 RNA 可以通过 tRNAscan 软件进行预测。

代码语言:javascript复制
#检查默认 perl 版本
perl ~/miniconda3/bin/tRNAscan-SE
perl ~/miniconda3/bin/tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure
-m stat.list MGH78578.fasta

-B :物种为细菌

-A :物种为古细菌

-O :输入序列为细胞器

-G :包括全部类型

-o:输出结果

-f:tRNA 二级结构

-m:统计结果

2.3 提取序列

代码语言:javascript复制
#提取序列
perl get_tRNA.pl tRNAScan.out MGH78578.fasta MGH78578_trna.ffn

提取序列程序

代码语言:javascript复制
#!/usr/bin/perl
if (@ARGV !=3) {
 die "This program is used to get tRNA sequence
 Usage:perl $0 <tRNAScan.out> <genome.fasta> <result>n";
}
open(A,"$ARGV[1]") ;
while (<A>) {
 chomp;
 $_=~s/[^ACGTNXd]$//gi;
 if($_=~/^>/){
 @temp=split;
 $temp[0]=~s/^>//;
 $name=$temp[0];
 }else{
 $genome_seq{$name}.=$_;
 } }
close(A);
open(A,"$ARGV[0]") ;
open O,">$ARGV[2]";
$flag=0;
while (<A>) {
 chomp;
 if($_=~/^-----/){
 $flag=1;
 }else{
 if($flag==1){
 @temp=split;
 if($temp[2]<$temp[3]){
$trna=uc(substr($genome_seq{$temp[0]},$temp[2]-1,$temp[3]-$temp[2] 1));
 $trna=~s/(.{50})/$1n/g;
 print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
$temp[5]n$trnan";
 }else{
 
$trna=reverse(uc(substr($genome_seq{$temp[0]},$temp[3]-1,$temp[2]-$temp[3] 1))
);
 $trna=~tr/ACGT/TGCA/;
 $trna=~s/(.{50})/$1n/g;
 print O ">$temp[0]_tRNA$temp[1] $temp[2] $temp[3] $temp[4]
$temp[5]n$trnan";
 }
 }
 } }
close(A);
close O;

2.4 查看二级结构

http://rna.tbi.univie.ac.at/forna/

序列格式

代码语言:javascript复制
#在线分析
>molecule_name
CGCUUCAUAUAAUCCUAAUGAUAUGGUUUGGGAGUUUCUACCAAGAGCCUUAAACUCUUGAUUAUGAAGUG
...(((((((..((((((.........))))))......).((((((.......))))))..))))))...

三、 其他 ncRNA

1、lncRNA

网址:http://www.noncode.org/

2、lncATLAS

lncRNA 亚细胞定位的数据库

网址:http://lncatlas.crg.eu/

3、miRNA

网址: http://www.mirbase.org/

4、ceRNA

ceRNA 功能探究数据库

网址: http://starbase.sysu.edu.cn/

5、circBase-

网址: http://www.circbase.org/

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞