人生第一次使用ASCP 下载数据

2023-06-04 22:02:45 浏览数 (1)

由于课题需要下载single cell raw data 进行后续分析,但是NCBI SRA 文件分割后只有一个FASTQ文件,只能从ENA上下载BAM 文件,使用Cell ranger bamtofastq 转为fastq文件再进行比对。开启了慢慢长ERROR路

Step1 ENA 收集数据

以 Transdifferentiation of tumor infiltrating innate lymphoid cells during progression of colorectal cancer 为例 GSE142694 (https://www.nature.com/articles/s41422-020-0312-y)

选取TSV 获取待下载的信息

Step2 改造TSV中FTP的信息

因为我涉及到的数据比较少,就进行手动修改,数据较多的可以使用awk进行修改。

修改前:ftp.sra.ebi.ac.uk/vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz

修改后:fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz

Step3 ASCP 下载

代码语言:shell复制
nohup ascp -QT -l 500M -P 33001 -i "asperaweb_id_dsa.openssh" era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz ./

asperaweb_id_dsa.openssh 文件一般放在aspera软件etc文件夹下

首先 which ascp 找到该文件后,进行修改即可

由于示例文件上次fastq 不是bam格式,后续将分享另一个数据利用cellranger bamtofastq

Step4 BAM to Fastq

由于本意是希望下载BAM文件,但示例数据没有上次BAM文件,后续更换示例文件。

代码语言:shell复制
nohup cellrange bamtofastq --nthreads 30 --tarceback XXX.bam.1 out

out 为存放fastq的结果文件

Step5 BAM to fastq

代码语言:shell复制
nohup cellranger bamtofastq --nthreads 30 --traceback XX.bam.1 out

XX.bam.1为ENA 下载好的BAM文件 out为输出文件夹(必须设定)

bam文件输出多个文件,单个文件为一个样本,说明该bam中存在多个样本,以单个文件为单位进行后续分析

Step 6 Cellranger count

比对前需要根据物种信息和参考基因组版本构建cellranger 的index

可以使用for循环和sh来挂后台进行比对mapping

代码语言:shell复制
vi counts.sh
代码语言:shell复制
for i in {1..12}
do
        cellranger count --id=r_data${i} --transcriptome=/sc-seq/database/cellranger/mm10/mm10_cellranger --fastqs=/sc-seq/out/f_${i}  --sample=bamtofastq

done

--id:设定输出文件名

--transcriptome: cellranger index 地址

--fastqs:待比对fastq文件夹

--sample:一定要选bamtofastq !!!

Step6.1 SRA 文件进行cellranger count

代码语言:shell复制
fastq-dump --split --gzip xx.sra
ls -h
xx_1.fastq.gz
xx_2.fastq.gz
# 需根据cell ranger 的命名规则进行修改
mv xx_1.fastq.gz xx_S1_L001_R1_001.fastq.gz
mv xx_2.fastq.gz xx_S1_L001_R2_001.fastq.gz
mkdir data0_xx
mv *.gz data0_xx
nohup cellranger count --id=r_data --transcriptome=/sc-seq/database/cellranger/mm10/mm10_cellranger --fastqs=/sc-seq/out/f_${i}  --sample=data0

SRA 文件的下载可以使用Prefetch 进行也可以使用上面?介绍的ASCP进行下载,祝大家科研顺利!

https://zhuanlan.zhihu.com/p/338890534(数据来源1)

https://www.jianshu.com/p/a06540027341(ascp主要参考教程)

https://github.com/10XGenomics/bamtofastq(cellranger bamtofatsq)

https://cloud.tencent.com/developer/article/2018633(cellranger bantofastq2)

0 人点赞