七八年前我写的教程,尤其是多组学测序数据分析,都是从ncbi的sra数据库里面下载sra文件,然后一步步处理。很多教程还录制成为了视频上传到b站。
但是读者多了之后我接受到的大家的反馈就是从ncbi的sra数据库里面下载sra文件实在是太慢了,因为我做演示的服务器在境外,所以自己压根就没有意识到这点。但是陆陆续续有小伙伴告诉我应该是使用aspera从ebi的ena数据库直接下载fastq文件即可,高速而且还少了一个sra文件转为fastq的步骤。所以后来我也开始在日常更新的公众号里面推荐这个方法,就是参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
- 比如项目地址是:https://www.ebi.ac.uk/ena/browser/view/PRJEB33490
脚本如下:
代码语言:javascript复制# conda activate download
# 自己搭建好 download 这个 conda 的小环境哦。
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &
这个脚本会根据你在EBI里面搜索到的 fq.txt 路径文件,来批量下载fastq测序数据文件。
但是风水轮流转
没想到,也没有过去多少年,就风水轮流转, aspera从ebi的ena数据库这个手段时灵时不灵的。现在只能是回归sra下载,见:转录组上游定量分析其实真不难,4步可定(一),从ncbi的sra数据库里面下载sra文件需要的是sra-tools这个工具套件, 如果你按照我的转录组流程配置:在全新服务器配置转录组测序数据处理环境,会发现安装的是sra-tools-2.8.0 ,后面仍然是报错,所以得指定版本,比如从github安装最新版:
- https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
不同操作系统下载后解压即可使用,但是这个软件很有意思,居然是需要先注册:
代码语言:javascript复制wget ....
tar zxvf ....
cd sratoolkit.3.0.0-ubuntu64/bin
./vdb-config --interactive
接下来就可以使用 sratoolkit.3.0.0-ubuntu64/bin 文件夹里面的各种各样的命令啦。
但是教程发出去的时候就有可能过时了
两个下载方式都可以,取决于你的网络情况,不同国家地区不同的选择,人啊要学会灵活应变!有一些学员在b站发弹幕吐槽我前面的ngs教学课程的sratoolkit代码失败,其实是它们自己的网络问题,我的课程录制较早,那个时候也没有想到过大家居然连数据都无法下载,这一点只能说请大家见谅。
- 免费视频课程《RNA-seq数据分析》
- 免费视频课程《WES数据分析》
- 免费视频课程《ChIP-seq数据分析》
- 免费视频课程《ATAC-seq数据分析》
- 免费视频课程《TCGA数据库分析实战》
- 免费视频课程《甲基化芯片数据分析》
- 免费视频课程《影像组学教学》
- 免费视频课程《LncRNA-seq数据》
- 免费视频课程《GEO数据挖掘》
- 肿瘤基因测序