RNA-Seq数据用aspera高效批量下载(万事开头难)

2020-09-24 10:58:44 浏览数 (1)

学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!

下面是《2019年中秋节广州站》学员的分享

学完了生信技能树的转录组课程,是时候实战一波了,我选择的是 NCBI数据集是SRP033333

  • Description KPC (Comparing mutant-p53 expressing cells to knockdown cells) Total Samples 6

下载数据

由于是EBI数据库,用wget下载速度太慢,Jimmy大神强烈建议用aspera工具下载,于是参考生信技能树教程代码,首先需要熟悉GEO和SRA数据库:

  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够

然后参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件。使用conda安装aspera

代码语言:javascript复制
conda create -n download 
conda activate download 
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp 
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh

我用EBI主页搜索SRR号搜索到项目链接,下载fastq或sra数据,这里就直接下载fq数据。

单个样本fq下载

找到单个样本的链接很容易:

(base) vip31@tpm2-WD12:~/RNA_Seq/sra$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/003/SRR1039773/SRR1039773_1.fastq.gz ~/RNA_Seq/sra/

批量下载(需先获得fq数据地址列表)

需要进行如下操作:

这样就拿到了如下所示的全部下载链接,可以使用循环进行批量下载啦:

  • 批量循环代码,需要注意格式,具体参考代码

cat filereport_read_run_PRJNA229893_tsv.txt | while read id; do ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@$id ~/RNA_Seq/sra/; done

  • 数据较多等待时间比较长,可以nohup后台下载,方法总比困难多

nohup cat filereport_read_run_PRJNA229893_tsv.txt | while read id; do ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@$id ~/RNA_Seq/sra/; done &

数据下载完成

万里长征第一步终于搞定,看教程很容易,自己操作困难重重,还好有jimmy老师团队倾心相助。

0 人点赞