二代测序返回的结果有时候一个物种的测序结果会返回来两个双端的fastp。
r1.fq.gz l1.fq.gz
r2.fq.gz l2.fq.gz
测序数据内容实际上一块的,只是传输时分成两个部分。
我们使用时习惯将其合并为一个双端文件。
原理
原理就是将两个文件内容依次输入到一个新的文件内,你也可以将第二个文件内容追加到第一个文件后面。
zcat命令可以不用解压缩来实现内容输出。
zcat r1.fq.gz >>r.fq.gz
zcat r2.fq.gz >>r.fq.gz
实践
实践数据如下
代码语言:txt复制 2994738374 Mar 5 18:46 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'
代码语言:txt复制 8571667328 Mar 5 19:54 FDSW202295954-1r_L1_1_clean.rd.fq.gz
代码语言:txt复制 3175088028 Mar 5 19:38 'FDSW202295954-1R_L1_2(1)_clean.rd.fq.gz'
代码语言:txt复制 8926160282 Mar 5 19:20 FDSW202295954-1r_L1_2_clean.rd.fq.gz
zcat FDSW202295954-1r_L1_1_clean.rd.fq.gz >> FDSW202295954-1r_L1_1.clean.fq
tail -n 4 FDSW202295954-1r_L1_1.clean.fq
可以通过tail命令查看最后一条的read信息。
第一个fq文件的最后一个read
代码语言:txt复制@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
代码语言:txt复制
代码语言:txt复制FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF
接下来接上下一个L文件
`zcat 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz' >>
FDSW202295954-1r_L1_1.clean.fq`
拼接完成以后我们检查一下,首先用less查看一下第二个文件的第一条read信息。
less 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'
第二个fq文件的第一个read
代码语言:txt复制@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
代码语言:txt复制
代码语言:txt复制F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
代码语言:txt复制@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG CACGTACT
查看第二个fq文件第一个read的身份信息找其前后10行的内容。
`grep -10 '@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG CACGTACT'
FDSW202295954-1r_L1_1.clean.fq`
代码语言:txt复制
代码语言:txt复制FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
代码语言:txt复制@A01050:296:HK55GDSXY:1:2678:16694:36323 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制AGTACTACCGGGCAAATCGACAATATGGGAACATCAACTCTCACGAATGGTGGAATGGATCATGCCTCAATCCTTTTTCAAAGCGTTATTTCGGGTGATAACACTCCCGGGACTGATCTCTTAACGCCTCAGAGACAGGTCTTAAATAGC
代码语言:txt复制
代码语言:txt复制FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
代码语言:txt复制@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG CACGTACT #第一个fq的最后一个read
代码语言:txt复制ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
代码语言:txt复制
代码语言:txt复制FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF
代码语言:txt复制@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG CACGTACT #第二个fq的第一个read
代码语言:txt复制AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
代码语言:txt复制
代码语言:txt复制F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
代码语言:txt复制@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制AGAGAGGGAGGGGGTAAAAAGTTTTTGATGTTTTGGGTGGTAAGTAAGCCCGAATATCGGATAACCCTAAATCCCCATTCTATTACACCTATGGTTCTAATATCTTTCCGAGATCAAAATTCCAAGATTAATGTGCCATATGACATAACT
代码语言:txt复制
代码语言:txt复制:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFF:FFFFF
代码语言:txt复制@A01050:298:HK577DSXY:1:1101:4092:1000 1:N:0:TCCTTGAG CACGTACT
代码语言:txt复制CCTCCCCCCTTTCCCATTTTTTTTTTATTTTAAAATTTTTCAGGGTTGTAACCTCATTTTTAAGTCCCTATACCGGGTTGTGGGGTCATTCCTCTGTCTCCCTACAGGTTTGTGGCGTGTCCGTCCCCCGCCCCCCAGGACCCATGTGGT
代码语言:txt复制
第一个fq文件的最后一个read与第二个fq文件的第一个read衔接,也没有缺失换行或者多换行符,成功完成了数据合并。
打包成tar.gz格式压缩包
tar -zcvf 压缩后文件名.tar.gz 待压缩文件名
解压tar.gz格式压缩包
tar zxvf 待解压文件名.tar.gz