公开测序原始数据如何高速下载:Aspera的Q&A,站长使用经验总结~

2023-02-28 19:37:48 浏览数 (1)


Aspera(ascp)软件优点和缺点?


优点

一个字“快”,真正的百兆宽带。下载NCBI原始文件SRA下行速度能够达到100M/s,一般SRA下载一个文件15-20分钟搞定。大大节省时间成本,对于云服务器使用来说,省时就是省钱。

缺点

一个词“麻烦”。

首先,必须使用linux环境。ascp也有其他版本,但ncbi只允许linux版下载。这就限制了大部分使用人群,不过对搞生信的人来说这个也不是问题。比较linux系统是生信必备。

其次,安装过程复杂。虽然现在有万能的conda,但安装起来还是不那么友好。

最后,遇到很多未知bug。比如下载到一半就停了,下载的地址不正确等等。


Aspera安装教程


安装之前要注意:Aspera不能装在Root下,一定要先建立一个子用户才可以。

代码语言:javascript复制
#linux Centos7环境
#登陆root,建立一个子用户,username是用户名
useradd username
#设置密码
passwd username
su username
#安装ascp
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
bash aspera-connect-3.7.4.147727-linux-64.sh
#查看是否安装成功,~目录下有.aspera文件夹代表安装成功
cd ~ && ls -a
#添加永久环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
#测试
ascp --help

Aspera使用的Q&A

1、如何下载SRA文件?

一定要在之前安装的那个子用户下去使用!!!

下面这个代码是下载SRR5907429.sra文件

代码语言:javascript复制
#下载文件代码如下
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T 
     anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR590/SRR5907429/SRR5907429.sra 
     ./

上面这个段代码要在这里说明一下

第2行,不用变

第3行,

anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR590/SRR5907429/SRR5907429.sra

标黄的部分需要根据sra文件名字更改,前六位很重要,想必大家看标注应该可以注意到了。

第4行,是下载的目标文件夹,“./”的意思是下载到当前文件夹。

2、下载提示链接不正确怎么办?

NCBI最近更改了公共下载的用户名和链接,就是

anonftp@ftp.ncbi.nlm.nih.gov

这个地方现在这个命令是可以下载的,这是在ncbi官网说明文件中获得的,以后有更新站长会及时发布。

3、下载速度不够100M/s怎么办?

站长,一直使用的国内的网。云服务器和本地服务都使用过。

云服务器选择按宽带计费1M或者2M,速度可以达到30-50M/s,增加带宽也无法上调,不过这个速度也是可以接受的。

本地服务器是家用的电信100M宽带,单连速度80-90M/s。

本地使用这里需要注意的是:

1)路由器。路由器站长选的是小米路由器pro(不带硬盘的),高速下载查看路由器cpu一直都是100%,并且路由器是过热状态。这样会导致,路由器自我保护重启。所以高速下载的时候一直开着空调降温,还能好一些。

2)公网IP。一般家庭宽带接的是住宅楼总路由,不是公网IP。之前没有获得外网IP的时候速度会打折。联系电信更改公网IP以后才达到的80-90M/s的速度。

3)下载之前一定要计算好储存空间。一般下载都是去批量下载,下载完解压以后的文件是很大的,一般是3-4倍。如果空间不足程序会自动停止。不过ascp支持断点续传,在同一文件夹下载会接着上次的继续下载。

0 人点赞