测序数据质量控制 [Quality control of sequencing data]

2023-07-19 13:30:02 浏览数 (2)

基本信息 information

环境:

Ubuntu arrch64 GNU/Linux

软件版本号:

conda 23.5.2

trimmomatic (0.39)

bowtie2 (2.5.1)

使用trimmomatic进行数据质控 Data QC with trimmomatic

可以使用trimmomatic -h命令查看使用帮助,得到如下反馈。

代码语言:txt复制
   PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>... or: 
代码语言:txt复制
   SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...

参数解读

PE表示 paired-end 数据的质量控制,SE也即single-end 数据。以下以PE为例。

  • -threads 使用的线程数。
  • -phred33-phred64 : 指定输入数据的质量编码方式。如果不指定,软件也会自动判断文件格式。phred33/64都是测序数据质量编码方式,用于描述测序数据中每个碱基的质量值。简单来说。illumina测序时,碱基结合产生的荧光数据被捕捉并绘制成荧光曲线。从荧光数据中可以识别碱基类别,但现实中波峰的形态可能发生模糊,并可能导致数据的失真。Phred就是用来评估这种错误率,Phred以 Q来表示,在测序文件中被编码、转换并储存为ASCII字符。
  • -trimlog <trimLogFile>: 指定日志文件,记录处理过程的详细信息和统计。
  • <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>是输出的质控后的 数据文件。
  • -summary <statsSummaryFile>: 指定输出统计摘要文件,记录处理结果的统计信息。
  • -quiet: 在处理过程中不输出冗余信息,保持安静模式。
  • -validatePairs: 对配对的数据进行验证,确保数据完整和一致性。
  • -basein <inputBase> | <inputFile1> <inputFile2>: 指定输入数据的文件名,可以输入两个单端文件或一对配对的文件。
  • -baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>: 指定输出数据的文件名,baseout代表输出文件的基础名字。输出文件包括4个,包括处理后的配对和未配对数据各有2个文件,其中U代表unpaired,P代表paired。
  • <trimmer1>...: 这是 Trimmomatic 支持的各种处理步骤,可以使用一个或多个处理步骤,以下为常用的过滤步骤。 ① ILLUMINACLIP: 剪切适配序列,用于去除测序引物或适配序列。 ②LEADING: 去除序列开头低质量的碱基。 ③ TRAILING: 去除序列末尾低质量的碱基。 ④SLIDINGWINDOW: 滑动窗口截断,根据窗口内的平均质量分值去除序列。 ⑤ MINLEN: 设定最小序列长度,去除过短的序列。

使用Bowtie2 去除宿主序列 Removing host sequences with Bowtie2

可以使用bowtie2 -h命令查看使用帮助,得到如下反馈。

代码语言:txt复制
bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]

参数解读

  • -x <bt2-idx>:指定Bowtie2索引的路径和前缀,用于比对。
  • {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>}:这是关于输入序列数据的不同选项,根据数据的类型选择相应的输入方式:
    • -1 <m1> -2 <m2>:指定成对测序数据的路径,<m1><m2>分别表示两个文件的路径。
    • -U <r>:指定未成对(单端)测序数据的路径,<r>表示文件的路径。
    • --interleaved <i>:指定合并成对测序数据的路径,<i>表示文件的路径。
    • -b <bam>:指定输入已比对的BAM格式文件,<bam>表示文件的路径。
  • [-S <sam>]:用于指定输出比对结果的SAM格式文件路径,<sam>表示文件的路径。

SAM格式是一种文本格式,可读性较好,以纯文本形式存储比对结果。可以直接被查看和编辑,适合小规模的数据。缺点是文件较大,读写速度较慢,不适合处理大规模数据。BAM格式是一种二进制格式,是SAM格式的压缩版本,以二进制形式存储比对结果。BAM文件的读写速度较快,适合处理大规模数据。

好了,测序数据质量控制就写到这里,下次更新物种注释部分。

0 人点赞