下一步,需要把RNA-seq(448个样本)和WXS(279个样本)分开进行比对,所以首先要把他们分开,并重新命名 具体信息见总目录
1 找到原始分组信息
下载SraRunTable.txt文件,里面有分组信息(这一步应该放在开始就更名完成),内容见下
代码语言:javascript复制Assay_Type Library_Name Run
RNA-Seq Lib_FUSCCTNBC001 SRR8518252
WXS Lib_FUSCCTNBC001.TT_WES SRR8517928
WXS Lib_FUSCCTNBC002.TT_WES SRR8517929
RNA-Seq Lib_FUSCCTNBC003 SRR8518401
RNA-Seq Lib_FUSCCTNBC003.PT SRR8518217
RNA-Seq Lib_FUSCCTNBC004 SRR8518316
RNA-Seq Lib_FUSCCTNBC005 SRR8518285
RNA-Seq Lib_FUSCCTNBC005.PT SRR8518339
WXS Lib_FUSCCTNBC005.TT_WES SRR8518032
RNA-Seq Lib_FUSCCTNBC006.rep SRR8518187
WXS Lib_FUSCCTNBC006.TT_WES SRR8518006
那么现在要以Library_Name来对Run进行重新命名 而我的文件名现在是这样的
代码语言:javascript复制SRR8517955_1_val_1.fq.gz SRR8518077_2_val_2.fq.gz SRR8518211_1_val_1.fq.gz SRR8518332_2_val_2.fq.gz SRR8518454_1_val_1.fq.gz SRR8707666_2_val_2.fq.gz
SRR8517955_2_val_2.fq.gz SRR8518078_1_val_1.fq.gz SRR8518211_2_val_2.fq.gz SRR8518333_1_val_1.fq.gz SRR8518454_2_val_2.fq.gz SRR8707667_1_val_1.fq.gz
SRR8517956_1_val_1.fq.gz SRR8518078_2_val_2.fq.gz SRR8518212_1_val_1.fq.gz SRR8518333_2_val_2.fq.gz
所以首先
- 1 把
_val_1
和_val_2
去掉,不去也行 - 2 把SRR开头的替换成
Library_Name
2 去掉val
代码语言:javascript复制sudo rename 's/_val_1//g' *.gz
sudo rename 's/_val_2//g' *.gz
顺便把report.txt也改了
代码语言:javascript复制sudo rename 's/_trimming_report//g' *.txt
现在显示为
代码语言:javascript复制├── SRR8707700_1.fastq.gz.txt
├── SRR8707700_1.fq.gz
├── SRR8707700_2.fastq.gz.txt
├── SRR8707700_2.fq.gz
├── SRR8707702_1.fastq.gz.txt
├── SRR8707702_1.fq.gz
├── SRR8707702_2.fastq.gz.txt
├── SRR8707702_2.fq.gz
所以接下来把SRRX变为Library_Name
3 批量更换Run
为Library_Name
change_name
用脚本完成这个任务对我有些难度,需要耗费时间,所以先用比较快的方法来做,借助我熟悉的excel文件
把下载的SraRunTable.txt
文件,用excel进行处理,具体就是借助&
命令进行连接,写到脚本里,内容如下
mv SRR7696207_2.fq.gz Lib_FUSCCTNBC158.TT_WES_2.fq.gz
mv SRR8517853_2.fq.gz Lib_FUSCCTNBC337.TT_WES_2.fq.gz
mv SRR8517854_2.fq.gz Lib_FUSCCTNBC123.TT_WES_2.fq.gz
mv SRR8517855_2.fq.gz Lib_FUSCCTNBC228.TT_WES_2.fq.gz
mv SRR8517856_2.fq.gz Lib_FUSCCTNBC230.TT_WES_2.fq.gz
mv SRR8517857_2.fq.gz Lib_FUSCCTNBC233.TT_WES_2.fq.gz
mv SRR8517858_2.fq.gz Lib_FUSCCTNBC234.TT_WES_2.fq.gz
最后改完名称之后为
代码语言:javascript复制├── [2.8G] Lib_FUSCCTNBC001_1.fq.gz
├── [3.0G] Lib_FUSCCTNBC001_2.fq.gz
├── [5.2G] Lib_FUSCCTNBC001.TT_WES_1.fq.gz
├── [5.5G] Lib_FUSCCTNBC001.TT_WES_2.fq.gz
├── [5.4G] Lib_FUSCCTNBC002.TT_WES_1.fq.gz
├── [5.9G] Lib_FUSCCTNBC002.TT_WES_2.fq.gz
├── [1.8G] Lib_FUSCCTNBC003_1.fq.gz
├── [2.0G] Lib_FUSCCTNBC003_2.fq.gz
├── [2.6G] Lib_FUSCCTNBC003.PT_1.fq.gz
├── [2.8G] Lib_FUSCCTNBC003.PT_2.fq.gz
├── [2.2G] Lib_FUSCCTNBC004_1.fq.gz
├── [2.4G] Lib_FUSCCTNBC004_2.fq.gz
├── [3.3G] Lib_FUSCCTNBC005_1.fq.gz
├── [3.7G] Lib_FUSCCTNBC005_2.fq.gz
├── [1.8G] Lib_FUSCCTNBC005.PT_1.fq.gz
├── [2.0G] Lib_FUSCCTNBC005.PT_2.fq.gz
├── [4.8G] Lib_FUSCCTNBC005.TT_WES_1.fq.gz
├── [5.2G] Lib_FUSCCTNBC005.TT_WES_2.fq.gz
├── [2.6G] Lib_FUSCCTNBC006.rep_1.fq.gz
至此更名工作完成,做起来也非常快就几分钟,但对我来说,第一是保证不出错。后面再添加脚本。 下面再进行分组,名称中有WES的都为WXS数据
4 分组
分别建立wes和RNA-seq文件夹
代码语言:javascript复制mkdir wes
mkdir RNA-seq
mv *TT_WES* wes
mv Lib* RNA_seq/
cd wes
ls|grep WES_1|wc
279 279 8928
cd ../RNA_seq
ls *1.fq.gz|wc
448 448 11600
到现在为止,就完成了分组和改名工作,继续进行下面外显子分析部分,等最后再分析RNA-seq数据。