欢迎关注”生信修炼手册”!
GreeNC数据库收录了植物和藻类的lncRNA信息,网址如下
http://greenc.sciencedesigners.com/wiki/Main_Page
该数据库中的lncRNA是软件预测的结果, pipeline示意如下
利用RNA_seq数据组装得到转录本之后,再进行以下几个筛选步骤
- 挑选长度大于200nt的转录本;
- 挑选ORF长度小于360nt(蛋白质小于120个氨基酸)的转录本;
- 和swiss-prot蛋白数据库比对,挑选没有比对上的转录本或者采用CPC软件预测蛋白编码潜能,挑选预测结果为non-coding的转录本,取两种方法的并集作为候选的lncRNA;
- 和miRBase,Rfam数据库比对,挑选没有比对上的转录本作为最终的lncRNA
对于预测到的lncRNA序列,通过Repeatmasker软件分析其中的重复元件。所有预测的lncRNA, 又分为以下两类
- high confidence
- low confidence
和swissport没有比对结果,CPC软件预测为non-coding, 没有比对上miRBase和Rfam数据库,同时符合这3点条件的lncRNA, 归类为high confidence,如果只满足其中2个条件,归类为low confidence; 还有一种情况,如果一个lncRNA的重复元件比例太多,也被归类为low confidence。
目前该数据库收录了49个物种的lncRNA信息,以水稻Oryza sativa
为例,检索结果如下所示
默认只展示5个lncRNA信息,通过右下方的more
,可以查看完整结果,示意如下
1. Genes
2. Transcripts
该数据库预测lncRNA的策略较为严格,值得我们借鉴。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!