6 RNA-seq数据和WXS数据分组及改名

2019-06-15 14:55:35 浏览数 (2)


下一步,需要把RNA-seq(448个样本)和WXS(279个样本)分开进行比对,所以首先要把他们分开,并重新命名 具体信息见总目录


1 找到原始分组信息

下载SraRunTable.txt文件,里面有分组信息(这一步应该放在开始就更名完成),内容见下

代码语言:javascript复制
Assay_Type  Library_Name    Run
RNA-Seq Lib_FUSCCTNBC001    SRR8518252
WXS Lib_FUSCCTNBC001.TT_WES SRR8517928
WXS Lib_FUSCCTNBC002.TT_WES SRR8517929
RNA-Seq Lib_FUSCCTNBC003    SRR8518401
RNA-Seq Lib_FUSCCTNBC003.PT SRR8518217
RNA-Seq Lib_FUSCCTNBC004    SRR8518316
RNA-Seq Lib_FUSCCTNBC005    SRR8518285
RNA-Seq Lib_FUSCCTNBC005.PT SRR8518339
WXS Lib_FUSCCTNBC005.TT_WES SRR8518032
RNA-Seq Lib_FUSCCTNBC006.rep    SRR8518187
WXS Lib_FUSCCTNBC006.TT_WES SRR8518006

那么现在要以Library_Name来对Run进行重新命名 而我的文件名现在是这样的

代码语言:javascript复制
SRR8517955_1_val_1.fq.gz  SRR8518077_2_val_2.fq.gz  SRR8518211_1_val_1.fq.gz  SRR8518332_2_val_2.fq.gz  SRR8518454_1_val_1.fq.gz  SRR8707666_2_val_2.fq.gz
SRR8517955_2_val_2.fq.gz  SRR8518078_1_val_1.fq.gz  SRR8518211_2_val_2.fq.gz  SRR8518333_1_val_1.fq.gz  SRR8518454_2_val_2.fq.gz  SRR8707667_1_val_1.fq.gz
SRR8517956_1_val_1.fq.gz  SRR8518078_2_val_2.fq.gz  SRR8518212_1_val_1.fq.gz  SRR8518333_2_val_2.fq.gz  

所以首先

  • 1 把_val_1_val_2去掉,不去也行
  • 2 把SRR开头的替换成Library_Name

2 去掉val

代码语言:javascript复制
sudo rename 's/_val_1//g' *.gz
sudo rename 's/_val_2//g' *.gz

顺便把report.txt也改了

代码语言:javascript复制
sudo rename 's/_trimming_report//g' *.txt

现在显示为

代码语言:javascript复制
├── SRR8707700_1.fastq.gz.txt
├── SRR8707700_1.fq.gz
├── SRR8707700_2.fastq.gz.txt
├── SRR8707700_2.fq.gz
├── SRR8707702_1.fastq.gz.txt
├── SRR8707702_1.fq.gz
├── SRR8707702_2.fastq.gz.txt
├── SRR8707702_2.fq.gz

所以接下来把SRRX变为Library_Name

3 批量更换RunLibrary_Name

change_name

用脚本完成这个任务对我有些难度,需要耗费时间,所以先用比较快的方法来做,借助我熟悉的excel文件 把下载的SraRunTable.txt文件,用excel进行处理,具体就是借助&命令进行连接,写到脚本里,内容如下

代码语言:javascript复制
mv SRR7696207_2.fq.gz Lib_FUSCCTNBC158.TT_WES_2.fq.gz
mv SRR8517853_2.fq.gz Lib_FUSCCTNBC337.TT_WES_2.fq.gz
mv SRR8517854_2.fq.gz Lib_FUSCCTNBC123.TT_WES_2.fq.gz
mv SRR8517855_2.fq.gz Lib_FUSCCTNBC228.TT_WES_2.fq.gz
mv SRR8517856_2.fq.gz Lib_FUSCCTNBC230.TT_WES_2.fq.gz
mv SRR8517857_2.fq.gz Lib_FUSCCTNBC233.TT_WES_2.fq.gz
mv SRR8517858_2.fq.gz Lib_FUSCCTNBC234.TT_WES_2.fq.gz

最后改完名称之后为

代码语言:javascript复制
├── [2.8G]  Lib_FUSCCTNBC001_1.fq.gz
├── [3.0G]  Lib_FUSCCTNBC001_2.fq.gz
├── [5.2G]  Lib_FUSCCTNBC001.TT_WES_1.fq.gz
├── [5.5G]  Lib_FUSCCTNBC001.TT_WES_2.fq.gz
├── [5.4G]  Lib_FUSCCTNBC002.TT_WES_1.fq.gz
├── [5.9G]  Lib_FUSCCTNBC002.TT_WES_2.fq.gz
├── [1.8G]  Lib_FUSCCTNBC003_1.fq.gz
├── [2.0G]  Lib_FUSCCTNBC003_2.fq.gz
├── [2.6G]  Lib_FUSCCTNBC003.PT_1.fq.gz
├── [2.8G]  Lib_FUSCCTNBC003.PT_2.fq.gz
├── [2.2G]  Lib_FUSCCTNBC004_1.fq.gz
├── [2.4G]  Lib_FUSCCTNBC004_2.fq.gz
├── [3.3G]  Lib_FUSCCTNBC005_1.fq.gz
├── [3.7G]  Lib_FUSCCTNBC005_2.fq.gz
├── [1.8G]  Lib_FUSCCTNBC005.PT_1.fq.gz
├── [2.0G]  Lib_FUSCCTNBC005.PT_2.fq.gz
├── [4.8G]  Lib_FUSCCTNBC005.TT_WES_1.fq.gz
├── [5.2G]  Lib_FUSCCTNBC005.TT_WES_2.fq.gz
├── [2.6G]  Lib_FUSCCTNBC006.rep_1.fq.gz

至此更名工作完成,做起来也非常快就几分钟,但对我来说,第一是保证不出错。后面再添加脚本。 下面再进行分组,名称中有WES的都为WXS数据

4 分组

分别建立wes和RNA-seq文件夹

代码语言:javascript复制
mkdir wes
mkdir RNA-seq
mv *TT_WES* wes
mv Lib* RNA_seq/
cd wes
ls|grep WES_1|wc
    279     279    8928
cd ../RNA_seq
ls *1.fq.gz|wc
    448     448   11600

到现在为止,就完成了分组和改名工作,继续进行下面外显子分析部分,等最后再分析RNA-seq数据。

0 人点赞