从公共数据库下载单细胞原始测序相关文件,然后正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
- 10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)
- 一个10x单细胞转录组项目从fastq到细胞亚群
- 一文打通单细胞上游:从软件部署到上游分析
- PRJNA713302这个10x单细胞fastq实战
- 一次曲折且昂贵的单细胞公共数据获取与上游处理
差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是问题往往是出在下载上面。虽然有aspera下载加速措施,但是每次下载至少失败一半!
比如第一次下载,得到的fastq文件如下所示:
代码语言:javascript复制$ ls -lh *gz|cut -d" " -f 5-
17G 6月 24 20:11 SRR15037124_1.fastq.gz
4.2G 6月 24 20:55 SRR15037124_2.fastq.gz
19G 6月 24 22:05 SRR15037125_1.fastq.gz
4.4G 6月 24 22:33 SRR15037125_2.fastq.gz
5.0G 6月 24 23:31 SRR15037126_1.fastq.gz
3.0G 6月 25 00:00 SRR15037126_2.fastq.gz
19G 6月 25 01:07 SRR15037127_1.fastq.gz
1.1G 6月 25 01:14 SRR15037127_2.fastq.gz
18G 6月 25 02:50 SRR15037134_1.fastq.gz
15G 6月 25 02:58 SRR15037134_2.fastq.gz
26G 6月 25 03:12 SRR15037145_1.fastq.gz
22G 6月 25 03:23 SRR15037145_2.fastq.gz
19G 6月 25 03:32 SRR15037156_1.fastq.gz
15G 6月 25 03:49 SRR15037156_2.fastq.gz
16G 6月 25 03:59 SRR15037157_1.fastq.gz
12G 6月 25 04:05 SRR15037157_2.fastq.gz
可以看到,下载的速度还不错,反正是晚上提交命令,第二天早上就搞定了,但是看文件大小,就觉得不正常,因为绝大部分样品都是1和2差不多大小,都是20G附近,那些才1~2G的文件肯定是有问题。看了看下载的日志:
代码语言:javascript复制
Session Stop (Error: Session data transfer timeout (server), Session data transfer timeout)
Completed: 16764756K bytes transferred in 547 seconds
(250944K bits/sec), in 1 file.
Partial Completion: 12435230K bytes transferred in 394 seconds
(258409K bits/sec), in 1 file; 1 file failed.
Session Stop (Error: Session data transfer timeout)
这个时候,就需要返工了,检查哪些fq文件下载失败,需要去ENA数据库页面获取更多信息:https://www.ebi.ac.uk/ena/browser/view/PRJNA743579?show=reads
去ENA数据库页面获取更多信息
制作了md5文件:
代码语言:javascript复制aee4a4bbc932c14bf2fa5ff7b43d5252 SRR15037124_1.fastq.gz
7e3f9fd79186d0b2e3500cf60b8857ac SRR15037124_2.fastq.gz
8bcaca9aecb4eed42e46c06944f08071 SRR15037125_1.fastq.gz
f56ffd4495731389e5fa29208e5327c6 SRR15037125_2.fastq.gz
d9905c88f81608ac49aede336c46ff5b SRR15037126_1.fastq.gz
403351a91c377fb61e5611f814b0f0ff SRR15037126_2.fastq.gz
192097d06fe9537764f6181e306a7a59 SRR15037127_1.fastq.gz
1721a290f9f66af76bdc9833c5f9a5f6 SRR15037127_2.fastq.gz
59309babe463f2a820efe574d9a1d3c7 SRR15037134_1.fastq.gz
0651661433af8001a14d5987e4d79f34 SRR15037134_2.fastq.gz
80e4697bee640fb8b9671975f15070de SRR15037145_1.fastq.gz
20e6d58da684afb141bede2b4ecd92eb SRR15037145_2.fastq.gz
e5285a62b7560972badce22353711cb4 SRR15037156_1.fastq.gz
6d7c9f94adad31e21e4b8cd8a6f899c0 SRR15037156_2.fastq.gz
524157d095a7f9c6ebe3c50946e31866 SRR15037157_1.fastq.gz
8c5ae927b825d696eb93ca2c18e37f99 SRR15037157_2.fastq.gz
然后简单的检验了一下,发现确实失败了一部分:
代码语言:javascript复制SRR15037124_1.fastq.gz: OK
SRR15037124_2.fastq.gz: FAILED
SRR15037125_1.fastq.gz: OK
SRR15037125_2.fastq.gz: FAILED
SRR15037126_1.fastq.gz: FAILED
SRR15037126_2.fastq.gz: FAILED
SRR15037127_1.fastq.gz: OK
SRR15037127_2.fastq.gz: FAILED
SRR15037134_1.fastq.gz: OK
SRR15037134_2.fastq.gz: OK
SRR15037145_1.fastq.gz: OK
SRR15037145_2.fastq.gz: OK
SRR15037156_1.fastq.gz: OK
SRR15037156_2.fastq.gz: FAILED
SRR15037157_1.fastq.gz: OK
SRR15037157_2.fastq.gz: FAILED
md5sum: WARNING: 7 computed checksums did NOT match
没办法,只能是把失败的fq文件重新制作成为了配置文件,继续下载。文本文件:fq.txt ,内容如下:
代码语言:javascript复制fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/024/SRR15037124/SRR15037124_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/025/SRR15037125/SRR15037125_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/026/SRR15037126/SRR15037126_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/026/SRR15037126/SRR15037126_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/027/SRR15037127/SRR15037127_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/056/SRR15037156/SRR15037156_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/057/SRR15037157/SRR15037157_2.fastq.gz
继续使用脚本 step1-aspera.sh :
代码语言:javascript复制cat fq.txt |while read id
do
ascp -QT -l 300m -P33001
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &
然后前面失败的文件这次就成功下载了。
怕的就是偶尔ENA数据库抽风,可能是下载很多次仍然会失败!
学徒作业
下载我这个教程里面 提到的PRJNA743579项目的数据后,走cellranger的定量流程,我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:
- 单细胞实战(一)数据下载
- 单细胞实战(二) cell ranger使用前注意事项
- 单细胞实战(三) Cell Ranger使用初探
- 单细胞实战(四) Cell Ranger流程概览
- 单细胞实战(五) 理解cellranger count的结果
顺便走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较