欢迎关注”生信修炼手册”!
在转录组的数据分析中,定量和差异分析是基础分析内容,对于mRNA的定量,直接将reads比对参考基因组进行定量即可,但是对于miRNA数据而言,这样的操作方式就不合适了。
miRNA长度在18bp-36b之间,非常的短,如果用这么短的reads比对整个基因组,肯定会有多个比对上的位置,在定量时,无法有效区分reads到底来自于哪一个miRNA,而且gtf文件中只会记录miRNA基因的基因组位置,并不提供5’和3’端两个成熟的miRNA的基因组位置。
为了准确对miRNA进行定量,mirdeep软件的开发者提出了这样一种思路,将reads 比对miRNA的前体序列,这样可以有效判断reads到底属于哪一个miRNA;其次,考虑到一个miRNA前体可以产生两个成熟的miRNA,根据reads的比对位置来区分两个成熟的miRNA, 示意图如下
在最开始研究miRNA的时候,发现一个miRNA前体可以产生两个小的RNA, 将其中表达量高的一个称之为mature miRNA, 将表达量相对较低的称之为star miRNA, 在后来直接将两个RNA都称之为mature miRNA了,mirdeep软件中依然采用了star序列的命名方式,实际是都是miRNA的序列。
在实际操作时,通过bowtie1
进行比对,bowtie1
对于短序列的比对任务灵敏度更高,适用于miRNA这种短序列的比对工作,首先对miRNA前体构建索引,代码如下
bowtie-build precursor.converted miRNA_precursor
接下来,将成熟的miRNA比对到miRNA前体上,代码如下
代码语言:javascript复制bowtie -p $threads -f -v 0 -a --best --strata --norc miRNA_precursor mature.converted ${name1}_mapped.bwt
最后,将miRNA测序的reads比对到miRNA前体上,代码如下
代码语言:javascript复制bowtie -p $threads -f -v $mismatches -a --best --strata --norc miRNA_precursor $name2.converted ${name2}_mapped.bwt
根据两个比对产生的结果文件,就可以对miRNA进行定量,首先从成熟miRNA的比对结果中,确定成熟miRNA在miRNA前体上的位置, 比对结果示意如下
代码语言:javascript复制hsa-miR-550b-2-5p hsa-mir-550b-1 15 ATGTGCCTGAGGGAGTAAGACA IIIIIIIIIIIIIIIIIIIIII 1
hsa-miR-550b-3p hsa-mir-550b-1 57 TCTTACTCCCTCAGGCACTG IIIIIIIIIIIIIIIIIIII 1
对于hsa-mir-550b-1
这个前体而言,有hsa-miR-550b-2-5p
和hsa-miR-550b-3p
两个成熟的miRNA,hsa-miR-550b-2-5p
比对到了前体的15-36bp的位置,hsa-miR-550b-3p
比对到前体的57-76bp的位置,这个位置是根据第4列的值加上第五列的序列长度得到的。
接下来从测序reads的比对结果,确定每个miRNA的表达量,比对结果示意如下
代码语言:javascript复制SW1_224845_x3 hsa-mir-550b-1 17 GTGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIIII 4 18:C>G
SW1_287750_x2 hsa-mir-550b-1 18 TGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIII 4 17:C>G
SW2_152540_x1 hsa-mir-550b-1 17 GTGCCTGAGGGAGTAAGACT IIIIIIIIIIIIIIIIIIII 2 19:A>T
SW2_152541_x7 hsa-mir-550b-1 17 GTGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIIII 4 18:C>G
SW2_199319_x1 hsa-mir-550b-1 18 TGCCTGAGGGAGTAAGAA IIIIIIIIIIIIIIIIII 4 17:C>A
SW3_404761_x1 hsa-mir-550b-1 17 GTGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIIII 4 18:C>G
SW3_516112_x1 hsa-mir-550b-1 18 TGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIII 4 17:C>G
SW4_451132_x4 hsa-mir-550b-1 17 GTGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIIII 4 18:C>G
SW4_589021_x1 hsa-mir-550b-1 18 TGCCTGAGGGAGTAAGAGA IIIIIIIIIIIIIIIIIII 4 17:C>G
我们可以看到,在实际测序的样本中,有这么多reads比对到了hsa-mir-550b-1
这个前体;接下来的任务就是区分这些reads到底属于哪些成熟的miRNA。
从比对结果可以很明显看到,实际测序的reads在前体上的位置都是在17-36bp之间,对于这个区间而言,只能是hsa-miR-550b-2-5p
这个成熟的miRNA。
为了加快比对过程,mirdeep对测序reads进行了处理,合并了冗余reads, 用序列标识符中x
后面的数字代表在原始测序结果中该reads出现的次数,最终计数时,直接把x
后面对应的数字相加就可以了。
mirdeep软件是miRNA分析中非常经典的一款软件,了解其定量原理有助于我们更好的理解miRNA数据分析过程。
·end·
—如果喜欢,快分享给你的朋友们吧—