由于课题需要下载single cell raw data 进行后续分析,但是NCBI SRA 文件分割后只有一个FASTQ文件,只能从ENA上下载BAM 文件,使用Cell ranger bamtofastq 转为fastq文件再进行比对。开启了慢慢长ERROR路
Step1 ENA 收集数据
以 Transdifferentiation of tumor infiltrating innate lymphoid cells during progression of colorectal cancer 为例 GSE142694 (https://www.nature.com/articles/s41422-020-0312-y)
选取TSV 获取待下载的信息
Step2 改造TSV中FTP的信息
因为我涉及到的数据比较少,就进行手动修改,数据较多的可以使用awk进行修改。
修改前:ftp.sra.ebi.ac.uk/vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz
修改后:fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz
Step3 ASCP 下载
代码语言:shell复制nohup ascp -QT -l 500M -P 33001 -i "asperaweb_id_dsa.openssh" era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz ./
asperaweb_id_dsa.openssh 文件一般放在aspera软件etc文件夹下
首先 which ascp 找到该文件后,进行修改即可
由于示例文件上次fastq 不是bam格式,后续将分享另一个数据利用cellranger bamtofastq
Step4 BAM to Fastq
由于本意是希望下载BAM文件,但示例数据没有上次BAM文件,后续更换示例文件。
代码语言:shell复制nohup cellrange bamtofastq --nthreads 30 --tarceback XXX.bam.1 out
out 为存放fastq的结果文件
Step5 BAM to fastq
代码语言:shell复制nohup cellranger bamtofastq --nthreads 30 --traceback XX.bam.1 out
XX.bam.1为ENA 下载好的BAM文件 out为输出文件夹(必须设定)
bam文件输出多个文件,单个文件为一个样本,说明该bam中存在多个样本,以单个文件为单位进行后续分析
Step 6 Cellranger count
比对前需要根据物种信息和参考基因组版本构建cellranger 的index
可以使用for循环和sh来挂后台进行比对mapping
代码语言:shell复制vi counts.sh
代码语言:shell复制for i in {1..12}
do
cellranger count --id=r_data${i} --transcriptome=/sc-seq/database/cellranger/mm10/mm10_cellranger --fastqs=/sc-seq/out/f_${i} --sample=bamtofastq
done
--id:设定输出文件名
--transcriptome: cellranger index 地址
--fastqs:待比对fastq文件夹
--sample:一定要选bamtofastq !!!
Step6.1 SRA 文件进行cellranger count
代码语言:shell复制fastq-dump --split --gzip xx.sra
ls -h
xx_1.fastq.gz
xx_2.fastq.gz
# 需根据cell ranger 的命名规则进行修改
mv xx_1.fastq.gz xx_S1_L001_R1_001.fastq.gz
mv xx_2.fastq.gz xx_S1_L001_R2_001.fastq.gz
mkdir data0_xx
mv *.gz data0_xx
nohup cellranger count --id=r_data --transcriptome=/sc-seq/database/cellranger/mm10/mm10_cellranger --fastqs=/sc-seq/out/f_${i} --sample=data0
SRA 文件的下载可以使用Prefetch 进行也可以使用上面?介绍的ASCP进行下载,祝大家科研顺利!
https://zhuanlan.zhihu.com/p/338890534(数据来源1)
https://www.jianshu.com/p/a06540027341(ascp主要参考教程)
https://github.com/10XGenomics/bamtofastq(cellranger bamtofatsq)
https://cloud.tencent.com/developer/article/2018633(cellranger bantofastq2)