FastQC评估测序数据的质量

2020-05-08 16:39:02 浏览数 (1)

欢迎关注”生信修炼手册”!

FastQC软件用于评估测序数据的质量,官网如下

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

安装过程如下

代码语言:javascript复制
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
unzip fastqc_v0.11.7.zip

解压缩之后,在FastQC目录下有一个可执行文件fastqc, 可以输入以下命令查看软件的帮助信息

代码语言:javascript复制
fastqc --help

对于单端数据,基本用法如下

代码语言:javascript复制
fastqc -o out_dir  -t 10 input.fq

对于双端数据,基本用法如下

代码语言:javascript复制
fastqc -o out_dir  -t 10 R1.fq R2.fq

需要注意的是,输出目录必须手动新建。

fastqc会从以下几个方面进行汇总和评估

1. Basic Statistics

这部分给出序列的基本信息,包括文件名,序列类型,碱基质量编码类型,碱基总数,序列长度,GC含量等信息,示意如下

对于碱基质量的编码,常见的有phred64和phred33两种格式,早期的Illumina 数据曾经是64编码格式,后来统一调整成了33格式, Illumina 1.5说明是phred64格式,Sanger/Illumina 1.9说明是phred33格式。目前主流测序平台产出的数据都为phred64格式。

序列长度部分会给出最小长度和最大长度,如果所有序列长度相同,只给一个值。对于下机的原始数据,所有序列的长度和机器读长是一样的。

需要注意的是,这里的poor quality 只是针对Casava格式的序列,对于illumina平台的fastq格式的数据,没有这一项统计内容,值永远为0。

2. per base sequence quality

这部分内容对所有序列的测序质量进行评估,并给出如下所示的图片。

纵坐标为测序质量,根据测序质量划分成了3个区间,0-20之间,背景色为红色,测序质量非常糟糕;20-28之间,背景色为橘色,测序质量差;28以上,背景色为红色,测序质量良好。

横坐标为序列长度,从序列的起始位置开始,统计所有序列在该位置上的碱基的质量,并用箱体图表示,箱体图上红色的线代表所有碱基质量的中位数,蓝色的线带代表所有碱基质量的平均数,黄色箱体的上下边缘分别代表上下四分位数,箱体图最下方的横线代表第10百分位数,最上方的横线代表第90百分位数。

当一个位点的第10百分位数小于10或者中位数小于25时,会给出警告信息;当一个位点的第10百分位数小于5或者中位数小于20时,会给出失败信息。

通常情况下,在序列的起始和结束部分可能出现质量较差的情况,对于最初测序的部分数据,测序仪直接使用默认参数进行base calling, 这部分碱基的质量一般, 然后会利用这部分数据去调整base calling的参数设置,以符合真实的数据,在之后的测序中,用调整后的参数进行base caling, 此时碱基的质量会更好,所以会观察到,在开头部分存在碱基质量上升的趋势;随着测序反应的进行,酶活性等因素降低,会导致测序质量变差,所以在结尾部分会观察到碱基质量降低的趋势。

3. per sequence quality scores

这部分内容会给出序列平均质量的分布图,示意如下,横坐标为reads的平均测序质量,纵坐标为序列数。

碱基平均质量越高的reads数越多,说明测序质量越好。在上图中,峰值出现在31处,说明大部分的reads平均质量都在Q30以上,测序质量良好。

当峰值对应的碱基质量小于27时,会给出警告信息,小于20时,会给出错误信息。

4. per base sequence content

这部分内容给出序列的碱基组成,示意图如下,横坐标为序列长度,纵坐标为各碱基的百分比

理想情况下,各个碱基的比例并不会随着测序反应的进行发生变化,所以每个碱基对应的线应该是相互平行的,而且对于碱基随机分布的文库,A和T碱基数量相等,G和C碱基数量相等。当A和T或者G和C的比例相差超过10%时,会给出警告信息,相差超过20%时,会给出错误信息。

实际建库时,特别对于RNA_seq文库或者转座酶片段化的文库,在初始阶段,会存在碱基分布的偏倚,但是这个是正常现象,并不会影响下游的数据分析;对于亚硫酸氢盐处理的甲基化测序文库,未甲基化的C会转换成T,也会出现碱基分布的偏倚,也是正常的。

当文库中引物二聚体序列比例很多时,就会观测到碱基分布的偏倚,这种情况就是文库的构建过程存在问题了。

5. per sequence gc content

这部分内容给出序列的GC含量分布图,示意如下,横坐标为GC含量,纵坐标为序列数

理想情况下,序列的GC含量分布是符合正态分布的,图中红色的线是实际的GC含量分布,蓝色的线是理论上的正态分布曲线,如果理论曲线的面积比实际的大15%,会给出警告信息,大30%,会给出错误信息。

引物二聚体比例过高或者存在其他物种的污染,都会导致GC含量分布不正常。

6. perl base N content

这部分内容给出N碱基的比例分布图,横坐标为序列长度,纵坐标为N碱基的比例

当测序仪无法识别具体是哪种碱基时,就会给出N, N比例越小肯定越好。当某个位点N碱基的比例大于5%时,会给出警告信息,大于20%时,会给出错误信息。

7. sequence length distribution

这部分内容给出序列的长度分布,示意图如下,横坐标为序列长度,纵坐标为序列条数

对于下机的原始数据,理论情况下所有序列的长度都和机器读长一致,上图中,机器的读长为150bp, 所以峰值在150bp处。可以看到,130bp处也存在部分序列,这说明文库构建中存在一点问题。当所有序列序列长度不相等时,会给出警告信息,当有任意一条序列长度为0时,会给出错误信息。

如果你的输入本身是长度不相等的序列,可以不用管这里的警告信息。

8. Duplicate sequences

这部分给出重复序列分布图,示意如下,横坐标为重复的次数,纵坐标为序列所占百分比

基因组覆盖度越高,测序得到的序列重复比例会越低;在文库构建过程中,如果某些片段PCR扩增的比例大于随机扩增的比例,会导致重复序列比例高。

9. overrepresented sequencs

这部分内容给出过表达序列的情况,过表达序列可能是引物二聚体,污染序列等异常情况,也有可能是基因组上存在的具有生物学意义的片段。需要根据实际情况加以区分。

10. adapter content

这部分内容给出序列中包含的adapter 序列的情况,并给出如下所示的图片

11. per tile sequence quality

只有illumina测序平台的数据才会给出这部分内容,对于每个tile的测序质量,用热图进行展示,示意如下

热图的颜色从蓝色过滤到红色,蓝色表明该tile的测序质量好,红色表明该tile的测序质量差,一个良好的测序结果中,基本上全部是蓝色。

对于序列的质量,fastqc提供了非常全面的评估内容和报告,软件用法很简单,主要是理解每个统计结果的含义。

·end·

—如果喜欢,快分享给你的朋友们吧—

0 人点赞