学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!
下面是《2019年中秋节广州站》学员的分享
学完了生信技能树的转录组课程,是时候实战一波了,我选择的是 NCBI数据集是SRP033333
- Description KPC (Comparing mutant-p53 expressing cells to knockdown cells) Total Samples 6
下载数据
由于是EBI数据库,用wget下载速度太慢,Jimmy大神强烈建议用aspera工具下载,于是参考生信技能树教程代码,首先需要熟悉GEO和SRA数据库:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
然后参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件。使用conda安装aspera
代码语言:javascript复制conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh
我用EBI主页搜索SRR号搜索到项目链接,下载fastq或sra数据,这里就直接下载fq数据。
单个样本fq下载
找到单个样本的链接很容易:
(base) vip31@tpm2-WD12:~/RNA_Seq/sra$ ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/003/SRR1039773/SRR1039773_1.fastq.gz ~/RNA_Seq/sra/
批量下载(需先获得fq数据地址列表)
需要进行如下操作:
这样就拿到了如下所示的全部下载链接,可以使用循环进行批量下载啦:
- 批量循环代码,需要注意格式,具体参考代码
cat filereport_read_run_PRJNA229893_tsv.txt | while read id; do ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@$id ~/RNA_Seq/sra/; done
- 数据较多等待时间比较长,可以nohup后台下载,方法总比困难多
nohup cat filereport_read_run_PRJNA229893_tsv.txt | while read id; do ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@$id ~/RNA_Seq/sra/; done &
数据下载完成
万里长征第一步终于搞定,看教程很容易,自己操作困难重重,还好有jimmy老师团队倾心相助。