lncRNA组装流程的软件介绍之gffcompare

2021-07-06 15:50:38 浏览数 (2)

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

比较不同样本的转录本定量信息需要先将转录本信息储存为相同的格式,一般组装软件的输出结果都是gtf或gff。由于在组装的过程中产生了大量的新的转录本信息,而我们仅通过肉眼观察其唯一的注释信息----染色体上的起始位置,很显然无法阐明其中蕴含的生物学意义,因此我们需要将它们与已知的转录本注释文件---annotation.gtf进行比较,将新得到的转录本与注释好的转录本之间建立联系,这样可以让我们更好地发现新的转录本。而gffcompare就是做的这个工作,由于它是基于cufflinks的一个附件cuffcompare开发的,因此很多原理及输出文件的格式也与cuffcompare类似。

一、软件安装

使用conda安装

代码语言:javascript复制
conda install gffcompare

二、gffcompare的用法

安装完成以后,可以使用gffcompare -h来查看软件的帮助文档。

1. 软件用法:
2. 常用参数:
代码语言:javascript复制
-r # 提供注释好的gtf文件
-G # 比较输入的gtf中所有的转录本,即使它们有可能是冗余的
-o # 输出文件的前缀
-i #如果gtf是很多文件,可以通过-i 提交一个gtf文件的list文件

三、输入文件

代码语言:javascript复制
 gtf或gff3文件

四、软件运行命令

代码语言:javascript复制
gtf=/home/data/lihe/reference/human/gtf/gencode.v37.annotation.gtf

nohup gffcompare -R -r $gtf -o ./merged ../05.stringtie/02.merge_gtf/stringtie_merged.gtf > gffcompare.log 2>&1 &

五、输出文件解读

1.输出文件六个,前四个文件可以指定保存位置,后两个文件是跟输入的gtf文件保存在一个位置,并且都是以-o提供的前缀开头的

代码语言:javascript复制
gffcmp.annotated.gtf:存储的是StringTie组装的转录本与注释文件内的转录本的差别信息,通过class_code来表示

gffcmp.stats:文件存储比对结果的准确性和预测率。

gffcompare.loci:见说明书

gffcompare.tracking:见说明书
 
gffcompare_result.refmap:这个文件包含四列信息,第一列ref_gene_id是gene symbol ,无symbol的给出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。这个文件指组装后与参考基因组几乎完全匹配的转录本
 
gffcompare_result.tmap:包含了转录本的定量信息,如cov,FPKM等,可用于定量或筛选新转录本(ref_gene_id,ref_id,class_code,qry_gene_id,qry_id,num_exons,FPKM,TPM,cov,len,major_iso_id,ref_match_len)
 

2.class code分类

class_code分类的具体含义: “=” 代码表示此预测转录本与注释基因的所有内含子完全吻合,但它们在第一外显子(first exon)的起始端或最后外显子(last exon)的末端可能有差别。然而,这并不影响将“=”类重建转录本判定为已注释转录本。又如,转录本标有 “j” 类别代码,表明此转录本至少有一个内含子与已注释基因的内含子相同,而其他位置可能不同,据此可推断此类转录本可能是注释基因的一个新异构体(novel isoform)。另外 “i,o,u,x” 的分类符合lncRNA的特征,可用于lncRNA的识别过程。因此,**“i,j,o,u,x”**这5类转录本表示可能是新的转录本,符合lncRNA的要求,保留作为后续分析。

代码语言:javascript复制
= : 预测转录本与参考转录本拥有完全相同的内含子

c : 预测转录本包含在参考转录本中

j : 预测的转录本与参考转录本共享至少一个剪切位点,可能是潜在的新型isoform

e : 预测的单外显子转录本与参考转录本至少重合10bp的参考内含子长度,有可能是pre-mRNA

i : 预测的转录子完全落入参考内含子中

o : 预测的转录本的外显子与参考转录本的外显子有重叠

p : 预测的转录本的参考转录本附近2kb的距离内,可能是聚合酶滑动产生的片段

r : 预测的转录本有50%以上的碱基与重复序列重合

u : 与参考转录本相比,预测的转录本是在基因间区

x : 预测的转录本的外显子与参考转录本重合但是在相反的链上

s : 预测的转录本内含子与参考转录本重合但是在相反的链上

0 人点赞