代码语言:javascript复制这个数据集详情:
标题:
A Single-Cell Transcriptomic Atlas of Human Skin Aging
发布日期:
2020-11-18
访问方式:
Open access
BioProject编号:
PRJCA003827
可以看到它是可以公开获取的,链接在:https://download.cncb.ac.cn/gsa-human/HRA000395/
肉眼可以看到规律,是HRR172193 到 HRR172228的36个编号,但是仅仅是9个样品,分成3组:
代码语言:javascript复制HRI077736 Skin-Y-18 female HRS118996 Skin-Y-18 Young group
HRI077737 Skin-Y-22 female HRS118997 Skin-Y-22 Young group
HRI077738 Skin-Y-23 female HRS118998 Skin-Y-23 Young group
HRI077739 Skin-M-44 female HRS118999 Skin-M-44 Middle-aged group
HRI077740 Skin-M-47 female HRS119000 Skin-M-47 Middle-aged group
HRI077741 Skin-M-48 female HRS119001 Skin-M-48 Middle-aged group
HRI077742 Skin-O-70 female HRS119002 Skin-O-70 Old group
HRI077743 Skin-O-73 female HRS119003 Skin-O-73 Old group
HRI077744 Skin-O-76 female HRS119004 Skin-O-76 Old group
所以每个样品应该是平均有4个编号,我们先统一下载,这个时候不需要conda了,仅仅是服务器有 axel 即可,如果没有axel可以求助管理员或者自己使用自己的conda安装axel :
代码语言:javascript复制for i in {193..228};do ( axel -n 20 https://download.cncb.ac.cn/gsa-human/HRA000395/HRR172${i}/HRR172${i}_f1.fastq.gz );done
for i in {193..228};do ( axel -n 20 https://download.cncb.ac.cn/gsa-human/HRA000395/HRR172${i}/HRR172${i}_r2.fastq.gz );done
基本上也就是等一个晚上就下载完毕,500多G的数据文件:
代码语言:javascript复制 ls -lh |cut -d" " -f 5-
8.3G 1月 20 20:40 HRR172193_f1.fastq.gz
7.7G 1月 20 20:40 HRR172193_r2.fastq.gz
9.0G 1月 20 20:52 HRR172194_f1.fastq.gz
7.7G 1月 20 20:50 HRR172194_r2.fastq.gz
12G 1月 20 21:08 HRR172195_f1.fastq.gz
11G 1月 20 21:04 HRR172195_r2.fastq.gz
6.7G 1月 20 21:17 HRR172196_f1.fastq.gz
5.9G 1月 20 21:12 HRR172196_r2.fastq.gz
12G 1月 20 21:33 HRR172197_f1.fastq.gz
9.8G 1月 20 21:28 HRR172197_r2.fastq.gz
6.8G 1月 20 21:42 HRR172198_f1.fastq.gz
5.8G 1月 20 21:35 HRR172198_r2.fastq.gz
6.4G 1月 20 21:52 HRR172199_f1.fastq.gz
5.6G 1月 20 21:44 HRR172199_r2.fastq.gz
6.3G 1月 20 22:02 HRR172200_f1.fastq.gz
5.5G 1月 20 21:52 HRR172200_r2.fastq.gz
8.0G 1月 20 22:16 HRR172201_f1.fastq.gz
7.3G 1月 20 22:03 HRR172201_r2.fastq.gz
8.2G 1月 20 22:29 HRR172202_f1.fastq.gz
7.3G 1月 20 22:15 HRR172202_r2.fastq.gz
6.9G 1月 20 22:39 HRR172203_f1.fastq.gz
6.1G 1月 20 22:25 HRR172203_r2.fastq.gz
7.4G 1月 20 22:49 HRR172204_f1.fastq.gz
6.6G 1月 20 22:35 HRR172204_r2.fastq.gz
8.3G 1月 20 23:01 HRR172205_f1.fastq.gz
7.3G 1月 20 22:46 HRR172205_r2.fastq.gz
4.0G 1月 20 23:13 HRR172206_f1.fastq.gz
3.6G 1月 20 22:52 HRR172206_r2.fastq.gz
5.6G 1月 20 23:26 HRR172207_f1.fastq.gz
5.1G 1月 20 23:00 HRR172207_r2.fastq.gz
7.4G 1月 20 23:43 HRR172208_f1.fastq.gz
6.5G 1月 20 23:24 HRR172208_r2.fastq.gz
5.6G 1月 21 00:01 HRR172209_f1.fastq.gz
5.1G 1月 20 23:38 HRR172209_r2.fastq.gz
6.7G 1月 21 00:11 HRR172210_f1.fastq.gz
6.0G 1月 20 23:52 HRR172210_r2.fastq.gz
12G 1月 21 00:29 HRR172211_f1.fastq.gz
11G 1月 21 00:08 HRR172211_r2.fastq.gz
9.7G 1月 21 00:46 HRR172212_f1.fastq.gz
8.8G 1月 21 00:22 HRR172212_r2.fastq.gz
12G 1月 21 01:06 HRR172213_f1.fastq.gz
11G 1月 21 00:39 HRR172213_r2.fastq.gz
6.2G 1月 21 01:16 HRR172214_f1.fastq.gz
5.5G 1月 21 00:48 HRR172214_r2.fastq.gz
6.6G 1月 21 01:26 HRR172215_f1.fastq.gz
5.8G 1月 21 01:00 HRR172215_r2.fastq.gz
14G 1月 21 01:50 HRR172216_f1.fastq.gz
12G 1月 21 01:19 HRR172216_r2.fastq.gz
5.1G 1月 21 01:59 HRR172217_f1.fastq.gz
4.6G 1月 21 01:26 HRR172217_r2.fastq.gz
6.4G 1月 21 02:11 HRR172218_f1.fastq.gz
5.7G 1月 21 01:37 HRR172218_r2.fastq.gz
12G 1月 21 02:28 HRR172219_f1.fastq.gz
11G 1月 21 01:55 HRR172219_r2.fastq.gz
11G 1月 21 02:46 HRR172220_f1.fastq.gz
9.6G 1月 21 02:13 HRR172220_r2.fastq.gz
8.2G 1月 21 02:59 HRR172221_f1.fastq.gz
7.3G 1月 21 02:24 HRR172221_r2.fastq.gz
4.5G 1月 21 03:07 HRR172222_f1.fastq.gz
4.0G 1月 21 02:31 HRR172222_r2.fastq.gz
7.6G 1月 21 03:19 HRR172223_f1.fastq.gz
7.3G 1月 21 02:43 HRR172223_r2.fastq.gz
4.5G 1月 21 03:26 HRR172224_f1.fastq.gz
4.0G 1月 21 02:49 HRR172224_r2.fastq.gz
7.3G 1月 21 03:38 HRR172225_f1.fastq.gz
7.0G 1月 21 03:01 HRR172225_r2.fastq.gz
5.5G 1月 21 03:45 HRR172226_f1.fastq.gz
5.3G 1月 21 03:10 HRR172226_r2.fastq.gz
9.0G 1月 21 03:56 HRR172227_f1.fastq.gz
8.6G 1月 21 03:23 HRR172227_r2.fastq.gz
7.1G 1月 21 04:05 HRR172228_f1.fastq.gz
6.7G 1月 21 03:34 HRR172228_r2.fastq.gz
值得注意的是它虽然是36个样品,但是只有9个病人,所以每个病人是4个样品,这个时候需要修改文件名字了。具体可以参考:如何优雅的给单细胞转录组fastq文件改名
把上面的样品名字进行合适修改后就可以走cellranger的定量流程,定量后的矩阵很容易跟前面的降维聚类分群并且合理的命名:
cellranger的定量流程详解:
正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
- 10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)
- 10X的单细胞转录组原始数据也可以在EBI下载
- 一个10x单细胞转录组项目从fastq到细胞亚群
- 一文打通单细胞上游:从软件部署到上游分析
- PRJNA713302这个10x单细胞fastq实战
- 一次曲折且昂贵的单细胞公共数据获取与上游处理
- 只能下载bam文件的10x单细胞转录组项目数据处理
- 不知道10x单细胞转录组样品和fastq文件的对应关系
- 10X单细胞转录组测序数据的 SRA转fastq踩坑那些事
- 10x的单细胞转录组fastq文件的R1和R2不能弄混哦
差不多几个小时就可以完成全部的样品的cellranger的定量流程。基础知识非常重要,我们在单细胞天地多次分享过cellranger流程的笔记(2019年5月),大家可以自行前往学习,如下:
- 单细胞实战(一)数据下载
- 单细胞实战(二) cell ranger使用前注意事项
- 单细胞实战(三) Cell Ranger使用初探
- 单细胞实战(四) Cell Ranger流程概览
- 单细胞实战(五) 理解cellranger count的结果