基本信息 information
环境:
Ubuntu arrch64 GNU/Linux
软件版本号:
conda 23.5.2
trimmomatic (0.39)
bowtie2 (2.5.1)
使用trimmomatic进行数据质控 Data QC with trimmomatic
可以使用trimmomatic -h命令查看使用帮助,得到如下反馈。
代码语言:txt复制 PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>... or:
代码语言:txt复制 SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...
参数解读
PE表示 paired-end 数据的质量控制,SE也即single-end 数据。以下以PE为例。
-threads
使用的线程数。-phred33
或-phred64
: 指定输入数据的质量编码方式。如果不指定,软件也会自动判断文件格式。phred33/64都是测序数据质量编码方式,用于描述测序数据中每个碱基的质量值。简单来说。illumina测序时,碱基结合产生的荧光数据被捕捉并绘制成荧光曲线。从荧光数据中可以识别碱基类别,但现实中波峰的形态可能发生模糊,并可能导致数据的失真。Phred就是用来评估这种错误率,Phred以 Q来表示,在测序文件中被编码、转换并储存为ASCII字符。-trimlog <trimLogFile>
: 指定日志文件,记录处理过程的详细信息和统计。<outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>
是输出的质控后的 数据文件。-summary <statsSummaryFile>
: 指定输出统计摘要文件,记录处理结果的统计信息。-quiet
: 在处理过程中不输出冗余信息,保持安静模式。-validatePairs
: 对配对的数据进行验证,确保数据完整和一致性。-basein <inputBase> | <inputFile1> <inputFile2>
: 指定输入数据的文件名,可以输入两个单端文件或一对配对的文件。-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>
: 指定输出数据的文件名,baseout代表输出文件的基础名字。输出文件包括4个,包括处理后的配对和未配对数据各有2个文件,其中U代表unpaired,P代表paired。<trimmer1>...
: 这是 Trimmomatic 支持的各种处理步骤,可以使用一个或多个处理步骤,以下为常用的过滤步骤。 ①ILLUMINACLIP
: 剪切适配序列,用于去除测序引物或适配序列。 ②LEADING
: 去除序列开头低质量的碱基。 ③TRAILING
: 去除序列末尾低质量的碱基。 ④SLIDINGWINDOW
: 滑动窗口截断,根据窗口内的平均质量分值去除序列。 ⑤MINLEN
: 设定最小序列长度,去除过短的序列。
使用Bowtie2 去除宿主序列 Removing host sequences with Bowtie2
可以使用bowtie2 -h命令查看使用帮助,得到如下反馈。
代码语言:txt复制bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
参数解读
-x <bt2-idx>
:指定Bowtie2索引的路径和前缀,用于比对。{-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>}
:这是关于输入序列数据的不同选项,根据数据的类型选择相应的输入方式:-1 <m1> -2 <m2>
:指定成对测序数据的路径,<m1>
和<m2>
分别表示两个文件的路径。-U <r>
:指定未成对(单端)测序数据的路径,<r>
表示文件的路径。--interleaved <i>
:指定合并成对测序数据的路径,<i>
表示文件的路径。-b <bam>
:指定输入已比对的BAM格式文件,<bam>
表示文件的路径。
[-S <sam>]
:用于指定输出比对结果的SAM格式文件路径,<sam>
表示文件的路径。
SAM格式是一种文本格式,可读性较好,以纯文本形式存储比对结果。可以直接被查看和编辑,适合小规模的数据。缺点是文件较大,读写速度较慢,不适合处理大规模数据。BAM格式是一种二进制格式,是SAM格式的压缩版本,以二进制形式存储比对结果。BAM文件的读写速度较快,适合处理大规模数据。
好了,测序数据质量控制就写到这里,下次更新物种注释部分。