终于轮到aspera高速下载的方式被抛弃了吗

2022-12-16 14:47:58 浏览数 (1)

七八年前我写的教程,尤其是多组学测序数据分析,都是从ncbi的sra数据库里面下载sra文件,然后一步步处理。很多教程还录制成为了视频上传到b站。

但是读者多了之后我接受到的大家的反馈就是从ncbi的sra数据库里面下载sra文件实在是太慢了,因为我做演示的服务器在境外,所以自己压根就没有意识到这点。但是陆陆续续有小伙伴告诉我应该是使用aspera从ebi的ena数据库直接下载fastq文件即可,高速而且还少了一个sra文件转为fastq的步骤。所以后来我也开始在日常更新的公众号里面推荐这个方法,就是参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:

  • 比如项目地址是:https://www.ebi.ac.uk/ena/browser/view/PRJEB33490

脚本如下:

代码语言:javascript复制
# conda activate download 
# 自己搭建好 download 这个 conda 的小环境哦。
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001  
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   
era-fasp@$id  .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

这个脚本会根据你在EBI里面搜索到的 fq.txt 路径文件,来批量下载fastq测序数据文件。

但是风水轮流转

没想到,也没有过去多少年,就风水轮流转, aspera从ebi的ena数据库这个手段时灵时不灵的。现在只能是回归sra下载,见:转录组上游定量分析其实真不难,4步可定(一),从ncbi的sra数据库里面下载sra文件需要的是sra-tools这个工具套件, 如果你按照我的转录组流程配置:在全新服务器配置转录组测序数据处理环境,会发现安装的是sra-tools-2.8.0 ,后面仍然是报错,所以得指定版本,比如从github安装最新版:

  • https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

不同操作系统下载后解压即可使用,但是这个软件很有意思,居然是需要先注册:

代码语言:javascript复制
wget ....
tar zxvf ....
cd sratoolkit.3.0.0-ubuntu64/bin
./vdb-config  --interactive

接下来就可以使用 sratoolkit.3.0.0-ubuntu64/bin 文件夹里面的各种各样的命令啦。

但是教程发出去的时候就有可能过时了

两个下载方式都可以,取决于你的网络情况,不同国家地区不同的选择,人啊要学会灵活应变!有一些学员在b站发弹幕吐槽我前面的ngs教学课程的sratoolkit代码失败,其实是它们自己的网络问题,我的课程录制较早,那个时候也没有想到过大家居然连数据都无法下载,这一点只能说请大家见谅。

  • 免费视频课程《RNA-seq数据分析》
  • 免费视频课程《WES数据分析》
  • 免费视频课程《ChIP-seq数据分析》
  • 免费视频课程《ATAC-seq数据分析》
  • 免费视频课程《TCGA数据库分析实战》
  • 免费视频课程《甲基化芯片数据分析》
  • 免费视频课程《影像组学教学》
  • 免费视频课程《LncRNA-seq数据》
  • 免费视频课程《GEO数据挖掘》
  • 肿瘤基因测序

0 人点赞