跑完一个RNA-SEQ项目,下意识的看了看bam文件大小,还有最后的文库统计情况,发现非常的 诡异,首先是bam文件大小就很奇特:
代码语言:javascript复制 29M Apr 29 12:15 S12.bam
30M Apr 29 12:15 S1.bam
35M Apr 29 12:10 S22.bam
33M Apr 29 12:10 S2.bam
2.3G Apr 26 18:54 S8.bam
2.2G Apr 26 15:27 S7.bam
2.1G Apr 26 12:05 S4.bam
2.2G Apr 26 06:36 S18.bam
1.8G Apr 26 05:14 S19.bam
2.3G Apr 26 03:35 S6.bam
很明显,有4个样本应该是流程失败了,bam文件这么小,最开始推测是不是参考基因组使用错了,但是觉得不应该,这个项目都是同一个物种,不太可能部分样本失败部分样本成功。
然后我看到了文件名很有规律,失败的是 1, 12, 2,22 但是没有一眼看出来为什么,又转向其它项目了,只是把同样的代码重新跑一遍,以为是服务器问题。
因为RNA-SEQ项目我早就搭建好了,很少出这样的幺蛾子,这个坑有点类似于我三年前分享的:做过1000遍RNA-seq的老司机告诉你如何翻车
然后是文库统计情况:
是不是很有趣,看起来这4个样本只是文库偏小而已,并没有其它问题,所以我去检查fq文件,实际情况是他们的fq文件大小相当。
不过我这时候注意到了文件名的排序很诡异,灵光一现,想起来了我录制linux视频的时候,专门提到过的一个问题,就是sort的排序问题。
sort排序问题
这个问题来源于我自己的操作习惯,我制作配置文件一直使用
代码语言:javascript复制ls /home/jianmingzeng/rna/raw_data/*1.fq.gz > 1
ls /home/jianmingzeng/rna/raw_data/*2.fq.gz > 2
wc 1 2
cut -d"/" -f 8 1 |cut -d"_" -f 1
cut -d"/" -f 8 1 |cut -d"_" -f 1 > 0
paste 0 1 2 > config
而这个ls的顺序会出现,S1_1.fq.gz
高于 S12_1.fq.gz
,但是呢 S12_2.fq.gz
高于 S1_2.fq.gz
是不是很诡异?