是的, 你没有看错,单细胞转录组数据分析直接就全免费,不过时间上原则上仅限于春节前后一周哈。(活动最终解释权归生信技能树所有)
因为我自己能力限制,单细胞多组学,单细胞表观,单细胞免疫组库,空间单细胞这些比较新颖的技术在2023年8月份之前我是不可能去整理它们数据分析流程,所以如果不是普通的单细胞转录组数据,请绕行哈, 放过我吧。
可以是单细胞转录组上游定量
就是帮大家正常走cellranger的定量流程即可,代码其实超级简单了,我已经是多次分享过了。参考:
- 10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)
- 10X的单细胞转录组原始数据也可以在EBI下载
- 一个10x单细胞转录组项目从fastq到细胞亚群
- 一文打通单细胞上游:从软件部署到上游分析
- PRJNA713302这个10x单细胞fastq实战
- 一次曲折且昂贵的单细胞公共数据获取与上游处理
- 只能下载bam文件的10x单细胞转录组项目数据处理
- 不知道10x单细胞转录组样品和fastq文件的对应关系
- 10X单细胞转录组测序数据的 SRA转fastq踩坑那些事
- 10x的单细胞转录组fastq文件的R1和R2不能弄混哦
如果计算资源足够的话,差不多几个小时就可以完成全部的样品的cellranger的定量流程。本来呢应该是3个样品收费人民币800元,活动期间全部免费哈, 当然了也得控制样品数量,因为我们的计算资源也不是无限多的,除非有志愿者愿意借我他们的闲置的服务器资源帮忙一起做这个活动。代码对我们生信工程师来说确实是超级简单,完全没有技术难度。比如2022年11月发表的文章《Single-cell transcriptomic analysis of the tumor ecosystem of adenoid cystic carcinoma》,很容易解析作者提供的单细胞转录组测序数据:
代码语言:javascript复制https://share.cncb.ac.cn/j2QOEb3S/HRA003197/HRR773999/HRR773999_f1.fastq.gz
https://share.cncb.ac.cn/j2QOEb3S/HRA003197/HRR773999/HRR773999_r2.fastq.gz
多个样品就是构建一个简单的shell脚本即可:
代码语言:javascript复制for i in {3999..4030};do ( axel -n 20 https://share.cncb.ac.cn/j2QOEb3S/HRA003197/HRR77${i}/HRR77${i}_f1.fastq.gz );done
for i in {3999..4030};do ( axel -n 20 https://share.cncb.ac.cn/j2QOEb3S/HRA003197/HRR77${i}/HRR77${i}_r2.fastq.gz );done
就可以拿到如下所示的测序数据文件:
代码语言:javascript复制(base) jmzeng@bio3:~/x10/jmzeng/ACC_PRJCA012307/raw$ ls -lht *gz|tail|cut -d" " -f 5-
1.8G 1月 7 21:59 HRR774004_S1_L001_R2_001.fastq.gz
12G 1月 7 21:49 HRR774002_S1_L001_R1_001.fastq.gz
2.3G 1月 7 21:47 HRR774003_S1_L001_R2_001.fastq.gz
12G 1月 7 21:31 HRR774002_S1_L001_R2_001.fastq.gz
7.3G 1月 7 20:22 HRR774001_S1_L001_R1_001.fastq.gz
7.0G 1月 7 20:14 HRR774001_S1_L001_R2_001.fastq.gz
7.3G 1月 7 19:30 HRR774000_S1_L001_R1_001.fastq.gz
7.0G 1月 7 19:28 HRR774000_S1_L001_R2_001.fastq.gz
8.5G 1月 7 18:48 HRR773999_S1_L001_R1_001.fastq.gz
8.2G 1月 7 18:44 HRR773999_S1_L001_R2_001.fastq.gz
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
可以看到,网络也很大的限制因素,所以如果你参加了我们的春节期间单细胞转录组数据分析全免费,请不要催我们。速度上肯定是没办法太快,毕竟参加活动的人那么多,排队是很正常的事情。
注意:原则上不支持自己测序的单细胞转录组数据的定量免费服务,因为你的数据要么在你的硬盘里面要么在百度云网盘里面,我们获取都是很麻烦的事情。公共数据所在的5大数据库对我们来说会简单很多,每次单细胞转录组测序数据的定量都会耗费起码2T的硬盘,我们本次搞活动的服务器就50T硬盘,理论上每次只能说并行10个单细胞项目,春节前后就这几天给大家,所以大概率上是可以支持100多个项目,先到先得哈。
可以是单细胞降维聚类分群
如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
无论是你自己的单细胞测序数据,还是公开的数据集,只需要有表达量矩阵即可。比如2022年11月发表的文章《Single-cell transcriptomic analysis of the tumor ecosystem of adenoid cystic carcinoma》,我们下载了作者提供的单细胞转录组测序数据,然后定量后,如下所示:
代码语言:javascript复制|-- [ 0] HRS459280
| |-- [ 35K] barcodes.tsv.gz
| |-- [326K] features.tsv.gz
| `-- [ 78M] matrix.mtx.gz
|-- [ 0] HRS459281
| |-- [ 34K] barcodes.tsv.gz
| |-- [326K] features.tsv.gz
| `-- [ 72M] matrix.mtx.gz
|-- [ 0] HRS459282
| |-- [ 41K] barcodes.tsv.gz
| |-- [326K] features.tsv.gz
| `-- [ 64M] matrix.mtx.gz
|-- [ 0] HRS459283
| |-- [ 50K] barcodes.tsv.gz
| |-- [326K] features.tsv.gz
| `-- [108M] matrix.mtx.gz
|-- [ 0] HRS459284
| |-- [ 41K] barcodes.tsv.gz
| |-- [326K] features.tsv.gz
| `-- [ 78M] matrix.mtx.gz
`-- [ 0] HRS459285
|-- [ 50K] barcodes.tsv.gz
|-- [326K] features.tsv.gz
`-- [ 63M] matrix.mtx.gz
6 directories, 18 files
所以你也需要提供类似的文件给我们来做单细胞降维聚类分群,我们会出几十张图,但是最重要的就是下面的亚群命名和标记基因展示图啦 :
会出几十张图
因为单细胞亚群命名取决于生物学背景,所以大家的课题我们并不是深入进去,我们仅仅是根据自己背诵的单细胞标记基因给自己认为合理的名字而已。
代码语言:javascript复制# T Cells (CD3D, CD3E, CD8A),
# B cells (CD19, CD79A, MS4A1 [CD20]),
# Plasma cells (IGHG1, MZB1, SDC1, CD79A),
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),
# Photoreceptor cells (RCVRN),
# Fibroblasts (FGF7, MME),
# Endothelial cells (PECAM1, VWF).
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
# immune (CD45 ,PTPRC), epithelial/cancer (EpCAM ,EPCAM),
# stromal (CD10 ,MME,fibo or CD31 ,PECAM1,endo)
当然了,如果你有自己的生物学背景,也可以提供类似于上面的基因名字给我们,争取给大家合理的生物学名字哈。我们主要是 跟肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群 , 是:
- immune (CD45 ,PTPRC),
- epithelial/cancer (EpCAM ,EPCAM),
- stromal (CD10 ,MME,fibo or CD31 ,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
可以是单细胞亚群比例变化和表达量差异分析
单细胞的多组的设计(比如正常组与药物组)可以为细胞类型水平比较提供以往Bulk RNA-seq分析所不能达到的精度。对此一般有两种进阶分析思路:
- (1)DE(Differential expression)--两组样本的同一细胞类型的基因表达差异分析;
- (2)DA(Differential abundance)--两组样本的同一细胞类型的丰度差异分析
普通的降维聚类分群后,如果我们的单细胞转录组项目确实是有合理的分组, 就可以比较不同组的单细胞亚群比例变化。以及,可以在不同组比较同一个单细胞亚群表达量差异分析。
能提供的
不仅仅是春节期间单细胞转录组数据分析全免费,而且提供全部的数据分析代码给大家,只需要你有基础的R语言能力,愿意学习,很容易看懂也可以跟着我们的代码完成同样的数据分析流程。
前面的单细胞转录组上游定量,因为测序数据fq文件都是在数据库里面,比对后的bam文件动辄几十个G,所以我不能提供,仅仅是给大家定量好的表达量矩阵即可。
不能提供的
因为单细胞转录组数据分析全免费,所以不可能给大家提供事无巨细的讲解,望见谅哈。如果你完全没有R语言能力,建议你花时间学习一下, 否则我们给大家的代码和数据分析结果对你来说跟粗鄙的网页工具没有区别了。
目前仅仅是支持人类或者小鼠的单细胞转录组数据,其它物种请绕行。
目前也不提供个性化分析,我们还是建议大家学习好R语言,我们有海量的教程你跟着做就可以完成任意你需要的个性化分析哈。
如果是在其它时间段
因为公众号推文有时效性,绝大部分小伙伴都应该是在春节前后看到的推文,所以理论上大家的委托都是有效的。如果大家确实是在其它时间段看到的本文,也是可以尝试付费联系我们哈。明码标价,童叟无欺。