通常情况下,大家拿到了一个单细胞数据集,会走我给大家分享的基础单细胞数据分析流程,参考前面的例子:人人都能学会的单细胞聚类分群注释 。如果是肿瘤单细胞数据集,第一层次降维聚类分群是:
- immune (CD45 ,PTPRC),
- epithelial/cancer (EpCAM ,EPCAM),
- stromal (CD10 ,MME,fibo or CD31 ,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
一个新鲜出炉(2022年6月)的单细胞数据挖掘文章《Identification of a differentiation‐related prognostic nomogram based on single‐cell RNA sequencing in clear cell renal cell carcinoma》,重新分析了GSE159115数据集的 7个 ccRCC病人单细胞:
- In our study, 17,665 scRNA-seq data from 7 ccRCC samples were acquired from GSE159115 (Fig. 1A,B).
- After our filtering, 15,332 scRNA-seq data from 5 ccRCC samples were retrieved for further research.
- 15,332 ccRCC data into 24 clusters according to the t-distributed stochastic neighbor embedding (tSNE)
- 24 clusters were annotated as 9 types of cells, and the results showed that abundant TME existed in ccRCC samples (Fig. 2D).
如下所示的图表:
降维聚类分群
如果大家参加过我们任意一次单细胞学徒培养就应该是知道上面的图表超级简单,就是走seurat流程进行单细胞降维聚类分群,这样的基础分析,有基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
但是,接下来这个数据挖掘文章的作者做了一个值得商榷的操作,就是针对全部的15,332个单细胞,它包括了全部的24 clusters(9 types of cells),做了一个拟时序分析,如下所示:
整个单细胞数据集进行拟时序分析
实际上,这个拟时序分析流程,我们早就在前面的教程:拟时序分析就是差异分析的细节剖析,我们展现了一个表达量矩阵如何去走Monocle2分析,通常我们的表达量矩阵在seurat对象里面, 首先导出,然后构建Monocle2对象,过滤细胞,选择基因,然后降维的时候选择默认DDRTree算法即可。
但是,这样的拿一个数据集里面的全部的单细胞来做拟时序的操作确实少见,有意思的是作者还拿这个拟时序里面的3个分支的基因去做后续临床意义数据挖掘了:
- We identified differentially expressed genes of each trajectory with a distinct differentiation, which were considered as DRGs.
当然了,最后这些基因肯定是可以把TCGA数据库的肾癌队列区分成为有临床生存意义的不同组,也可以构建模型。
我个人并不认可这样的拟时序分析
在前面的教程:拟时序分析就是差异分析的细节剖析,我就反复提到了拟时序这个分析最好是针对有关系的单细胞亚群,它们之间的部分基因的表达量变化趋势有可能是是它们的发育关系。既然最后的目标是发育关系的推断,那么总不能说把上皮细胞跟B细胞混合在一起做拟时序吧,我听说过成纤维细胞和上皮细胞的互相转换也就是EMT,也有内皮细胞和上皮细胞的转换关系,还有周细胞和上皮细胞的,但是确实想象不出来B细胞如何跟上皮细胞进行转换!
当然了,只要你有表达量矩阵,走我给大家代码是没有问题,无非就是构建Monocle2对象,过滤细胞,选择基因,然后降维的时候选择默认DDRTree算法即可。但是能跑出来结果,并不就代表图表有意义或者说可以解释!