一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。
但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 :
代码语言:javascript复制 GSE253013_all_luad_garnett_temp.rds.gz 9.3 Gb (ftp)(http) RDS
如果是慢慢的下载需要两三天时间:
代码语言:javascript复制wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz
8.04M 34.2KB/s 剩余 2d 4h
借助aspera的高速下载
首先自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可,然后要详细的阅读GEO数据库的官方文档
- https://www.ncbi.nlm.nih.gov/geo/info/download.html
- https://www.ibm.com/support/pages/downloading-data-ncbi-command-line
需要构建的命令如下所示:
代码语言:javascript复制conda activate download
ascp -v -k 1 -T -l 200m
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh
anonftp@ftp.ncbi.nlm.nih.gov:/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz ./
下载速度非常感人:
代码语言:javascript复制1% 97MB 191Mb/s
有了这个rds文件,很容易载入到r编程语言里面去处理它,然后文章是提取子集,感兴趣的可以试试看(Single-cell analysis identifies NOTCH3-mediated interactions between stromal cells that promote microenvironment remodeling and invasion in lung adenocarcinoma)
全部的Linux命令
首先是安装自己的conda,在自己的服务器里面自己下载并且安装自己的conda,自己配置哈:
代码语言:javascript复制# 首先下载文件,20M/S的话需要几秒钟即可
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# Miniconda3-latest-Linux-x86_64.sh 135.1 MiB 2023-12-21 09:23
# wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 如果比较慢就切换镜像哦
# 接下来使用bash命令来运行我们下载的文件,记得是一路yes下去
bash Miniconda3-latest-Linux-x86_64.sh
# 上面的bash命令安装成功后,需要更新系统环境变量文件
source ~/.bashrc
首先如果是在中国大陆,需要设置好镜像:
代码语言:javascript复制conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
然后就可以使用自己的conda来安装 aspera 软件,本来是说让大家自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可。
代码语言:javascript复制conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh
上面的代码是基于Linux操作系统哦,如果大家一定要在自己的Windows或者Mac电脑处理,就简单的替换关键参数即可。