通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:
- immune (CD45 ,PTPRC),
- epithelial/cancer (EpCAM ,EPCAM),
- stromal (CD10 ,MME,fibro or CD31 ,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
也就是说我们推荐的是层级分群流程,这样的话通常是需要细分亚群,但是大家实践过程经常会发现很难解释的数据分析结果,比如明明是准备细分淋巴系(T,B,NK细胞),但是里面混入了上皮细胞,这个基本上就完全可以删除这样的混入了,目前的生命科学体系很难接受这样的全新单细胞亚群它同时表达上皮细胞和淋巴系的特异性基因。
但是如果是准备细分淋巴系(T,B,NK细胞),但是里面混入了髓系(单核,树突,巨噬,粒细胞),就比较麻烦了,因为它们都是免疫细胞,很难说这样的混入并不是免疫前体细胞。
又比如说准备细分内皮细胞,但是里面混入了成纤维或者周细胞,也很难说并不是一个全新的单细胞亚群。比如杜克-新加坡国立大学医学院和新加坡科学技术局基因组研究所等机构的研究人员在 Cancer Discovery 期刊发表了题为:《Single-cell atlas of lineage states, tumor microenvironment and subtypespecific expression programs in gastric cancer》 的研究论文。得到的基质细胞里面的 fibroblast 细分4个亚群(STF1~STF4),如下所示::
- pericytes (STF2; defined by RGS5 and NOTCH3),
- fibroblasts (STF1 and STF3, defined by LUM and DCN),
- 而STF4是:PLVAP positive endothelial cell subclusters.
也就是说 发现了新的细胞类型STF4,这个新的单细胞亚群居然是同时表达内皮细胞(PLVAP)和周细胞(RGS5)相关标记,当然了,数量并不多,近40个10X样品里面居然就821个这样的细胞。首先是研究者排除了双细胞的可能性:We ruled out the possibility that the double-lineage nature of STF4 cells is caused by potential technical artefacts such as doublet effects (30), 然后实验验证了这个全新细胞亚群:and orthogonally validated the existence of the PLVAP/RGS5 double-positive population on FFPE (formalin-fixed paraffin embedded) sections using dual-color RNAScope (Supplementary Figure 2J). 需要跟我前面的两个教程进行对比:
- 为什么一个单细胞亚群既有T细胞也有B细胞的标记基因呢,
- 你的单细胞亚群可能并不是真的既有T细胞也有B细胞的标记基因
这样的情况非常多,再比如2023的5月的文章:《Single-cell RNA sequencing reveals a mechanism underlying the susceptibility of the left atrial appendage to intracardiac thrombogenesis during atrial fibrillation》,就是首先进行第一层次降维聚类分群,得到如下所示:
- 1911 cardiomyocytes (expressing ACTC1, MYL7 and TNNT2),
- 8369 fibroblasts (FBs; expressing DCN, GSN and COL1A2),
- 6565 ECs (expressing VWF and CD36),
- 975 pericytes (PCs) (expressing RGS5 and ABCC9),
- 922 smooth muscle cells (SMCs; expressing ACTA2, MYH11 and MYLK),
- 2878 macrophages (expressing CD163 and C1QA),
- 3773 lympho- cytes (expressing NKG7, CCL5 and IL7R),
- 679 monocytes (expressing S100A8),
- 119 B cells (expressing CD69 and CD79A)
- 2300 mesothelial cells (expressing MSLN)
然后针对里面的内皮细胞进行细分亚群,就发现了成纤维和周细胞的混入:
- FB-like ECs expressed typical FB markers, including DCN and CFD,
- ECs similar to PCs strongly expressed ABCC9 and AGT.
如下所示:
发现了成纤维和周细胞的混入
因为内皮细胞主要是区分成为了淋巴内皮和血管内皮, 其中血管可以细分为动脉静脉和毛细血管:
- lymphatic ECs (LECs; CCL21, PROX1).
- arteries (HEY1, IGFBP3), capillaries (CD36, CA4), veins (ACKR1)
能一锤定音吗
细分提纯后的内皮细胞里面如果高表达了成纤维或者SMC的特异性基因,它到底是双细胞呢,还是全新单细胞亚群呢,还是纯粹说算法层面的不完美导致部分真正的成纤维或者SMC混入到了内皮细胞所以直接删除它们或者说把它们回归到成纤维或者SMC里面呢?
生命科学领域的教科书知识点一直在被颠覆,比如昨天介绍的T细胞或者髓系免疫细胞在10X技术单细胞转录组测序数据里面也被文章说是可以表达AR基因,详见:单细胞水平什么程度的表达才算是阳性呢