fastq文件格式解读

2021-12-04 09:57:13 浏览数 (2)

二代测序返回的结果有时候一个物种的测序结果会返回来两个双端的fastp。

r1.fq.gz l1.fq.gz

r2.fq.gz l2.fq.gz

测序数据内容实际上一块的,只是传输时分成两个部分。

我们使用时习惯将其合并为一个双端文件。

原理

原理就是将两个文件内容依次输入到一个新的文件内,你也可以将第二个文件内容追加到第一个文件后面。

zcat命令可以不用解压缩来实现内容输出。

zcat r1.fq.gz >>r.fq.gz

zcat r2.fq.gz >>r.fq.gz

实践

实践数据如下

代码语言:txt复制
  2994738374 Mar  5 18:46 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'
代码语言:txt复制
  8571667328 Mar  5 19:54  FDSW202295954-1r_L1_1_clean.rd.fq.gz
代码语言:txt复制
  3175088028 Mar  5 19:38 'FDSW202295954-1R_L1_2(1)_clean.rd.fq.gz'
代码语言:txt复制
  8926160282 Mar  5 19:20  FDSW202295954-1r_L1_2_clean.rd.fq.gz

zcat FDSW202295954-1r_L1_1_clean.rd.fq.gz >> FDSW202295954-1r_L1_1.clean.fq

tail -n 4 FDSW202295954-1r_L1_1.clean.fq

可以通过tail命令查看最后一条的read信息。

第一个fq文件的最后一个read

代码语言:txt复制
@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制
ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
代码语言:txt复制
 
代码语言:txt复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF

接下来接上下一个L文件

`zcat 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz' >>

FDSW202295954-1r_L1_1.clean.fq`

拼接完成以后我们检查一下,首先用less查看一下第二个文件的第一条read信息。

less 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'

第二个fq文件的第一个read

代码语言:txt复制
@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制
AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
代码语言:txt复制
 
代码语言:txt复制
F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
代码语言:txt复制
@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG CACGTACT

查看第二个fq文件第一个read的身份信息找其前后10行的内容。

`grep -10 '@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG CACGTACT'

FDSW202295954-1r_L1_1.clean.fq`

代码语言:txt复制
 
代码语言:txt复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
代码语言:txt复制
@A01050:296:HK55GDSXY:1:2678:16694:36323 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制
AGTACTACCGGGCAAATCGACAATATGGGAACATCAACTCTCACGAATGGTGGAATGGATCATGCCTCAATCCTTTTTCAAAGCGTTATTTCGGGTGATAACACTCCCGGGACTGATCTCTTAACGCCTCAGAGACAGGTCTTAAATAGC
代码语言:txt复制
 
代码语言:txt复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
代码语言:txt复制
@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG CACGTACT #第一个fq的最后一个read
代码语言:txt复制
ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
代码语言:txt复制
 
代码语言:txt复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF
代码语言:txt复制
@A01050:298:HK577DSXY:1:1101:2899:1000  1:N:0:TCCTTGAG CACGTACT #第二个fq的第一个read
代码语言:txt复制
AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
代码语言:txt复制
 
代码语言:txt复制
F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
代码语言:txt复制
@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制
AGAGAGGGAGGGGGTAAAAAGTTTTTGATGTTTTGGGTGGTAAGTAAGCCCGAATATCGGATAACCCTAAATCCCCATTCTATTACACCTATGGTTCTAATATCTTTCCGAGATCAAAATTCCAAGATTAATGTGCCATATGACATAACT
代码语言:txt复制
 
代码语言:txt复制
:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFF:FFFFF
代码语言:txt复制
@A01050:298:HK577DSXY:1:1101:4092:1000 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制
CCTCCCCCCTTTCCCATTTTTTTTTTATTTTAAAATTTTTCAGGGTTGTAACCTCATTTTTAAGTCCCTATACCGGGTTGTGGGGTCATTCCTCTGTCTCCCTACAGGTTTGTGGCGTGTCCGTCCCCCGCCCCCCAGGACCCATGTGGT
代码语言:txt复制
 

第一个fq文件的最后一个read与第二个fq文件的第一个read衔接,也没有缺失换行或者多换行符,成功完成了数据合并。

打包成tar.gz格式压缩包

tar -zcvf 压缩后文件名.tar.gz 待压缩文件名

解压tar.gz格式压缩包

tar zxvf 待解压文件名.tar.gz

0 人点赞