高速下载GEO数据库的单细胞表达量矩阵文件

2024-02-22 16:20:53 浏览数 (2)

一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。

但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 :

代码语言:javascript复制
 GSE253013_all_luad_garnett_temp.rds.gz 9.3 Gb (ftp)(http) RDS

如果是慢慢的下载需要两三天时间:

代码语言:javascript复制
wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz 

 8.04M  34.2KB/s  剩余 2d 4h

借助aspera的高速下载

首先自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可,然后要详细的阅读GEO数据库的官方文档

  • https://www.ncbi.nlm.nih.gov/geo/info/download.html
  • https://www.ibm.com/support/pages/downloading-data-ncbi-command-line

需要构建的命令如下所示:

代码语言:javascript复制
conda activate download
 
ascp -v -k 1 -T -l 200m 
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   
anonftp@ftp.ncbi.nlm.nih.gov:/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz ./ 

下载速度非常感人:

代码语言:javascript复制
1%   97MB  191Mb/s

有了这个rds文件,很容易载入到r编程语言里面去处理它,然后文章是提取子集,感兴趣的可以试试看(Single-cell analysis identifies NOTCH3-mediated interactions between stromal cells that promote microenvironment remodeling and invasion in lung adenocarcinoma)

全部的Linux命令

首先是安装自己的conda,在自己的服务器里面自己下载并且安装自己的conda,自己配置哈:

代码语言:javascript复制
# 首先下载文件,20M/S的话需要几秒钟即可
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# Miniconda3-latest-Linux-x86_64.sh 135.1 MiB 2023-12-21 09:23
# wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 如果比较慢就切换镜像哦

# 接下来使用bash命令来运行我们下载的文件,记得是一路yes下去
bash Miniconda3-latest-Linux-x86_64.sh 
#  上面的bash命令安装成功后,需要更新系统环境变量文件
source ~/.bashrc

首先如果是在中国大陆,需要设置好镜像:

代码语言:javascript复制
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes 

然后就可以使用自己的conda来安装 aspera 软件,本来是说让大家自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可。

代码语言:javascript复制
conda create -n download 
conda activate download 
conda install -y -c hcc aspera-cli 
which ascp 
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh 

上面的代码是基于Linux操作系统哦,如果大家一定要在自己的Windows或者Mac电脑处理,就简单的替换关键参数即可。

0 人点赞