1.miRNA结构介绍
由上面的介绍我们知道miRNA是由可以折叠成茎环结构的的RNA产生的,由此我们可以想到只要预测基因组序列中可以折叠成茎环结构的区域就可以对miRNA进行预测了,但是只通过这一个标准来预测难免会带入太多的假阳性;我们又想到由于miRNA一般为21-22nt,所以miRNA的前体应该不会特别长,通过查阅文献得知miRNA的前体序列一般不超过300nt,那我们通过长度再次过滤是不是就可以了呢?答案是不行的,两个特征还是太少了。因此我们接着对miRNA的二级结构进行具体分析, 下图是拟南芥miRNA MIR399b的二级结构:
图中带颜色的部分是miRNA/miRNA* duplex, miRNA*是成熟miRNA的不完全互补链,在导入RNA沉默复合体中会被降解。由图中可以看出不管是miRNA还是miRNA*在其3‘端都有2个碱基的突出,因此这个特征可以作为另一个miRNA的评判标准;同时我们还能够看到miRNA/miRNA* duplex里是含有由于碱基不匹配而造成的突起,所以这个也是miRNA的一个评判标准;最后我们还看到miRNA/miRNA* duplex是存在错配的,通过查阅文献得知miRNA/miRNA*最多允许5个错配。通过以上5个标准我们就可以判断基因组中的一段序列是不是一个miRNA序列了。
2.深度测序鉴定miRNA的标准
由于二代测序的飞速发展,出现了通过二代测序来鉴定miRNA的方法,也就是通过sRNA-seq对小RNA进行测序来鉴定miRNA的策略,接着我们介绍一下通过二代测序鉴定miRNA的标准:
1. miRNA/miRNA* duplex在其3‘端有两个碱基的突出并且miRNA的前体长度不大于300nt。
2. 成熟的miRNA序列以及miRNA*序列只能由sRNA-seq来确定。
3.miRNA/miRNA* duplex包含不大于5个碱基的错配,并且最多只有一个非对称的突起,这个突起最多包含3个突起的核苷酸。
4.比对到预测前体上的sRNA-seq reads必须有75%的比例是精确的来自成熟的miRNA或者miRNA*,这些reads包含在miRNA和miRNA*序列上有一个错配的reads。
5.新鉴定的miRNA应该至少在两个sRNA-seq文库中按照标准被鉴定出来。
6.在 sRNA-seq中基于同源性鉴定miRNA也必须满足提到的所有的标准。
7.小于20nt或者大于24nt的sRNA不应该被注释成miRNA。
通过以上标准进行植物miRNA鉴定的软件有ShortStack以及miRDeep-P2, 下次我们在具体介绍这两款软件的使用方式。
参考文献:
Axtell, M.J., and Meyers, B.C. (2018). Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell 30, 272-284.
Jones-Rhoades, M., Bartel, D.P., and Bartel, B. (2006). MicroRNAs and Their Regulatory Roles in Plants. Annu. Rev. Plant Biol. 57, 19–53.