单细胞转录组基本分析流程大家应该是不陌生了,比如肿瘤样品的单细胞就应该是首先是按照如下所示的标记基因进行第一次分群 :
- immune (CD45 ,PTPRC),
- epithelial/cancer (EpCAM ,EPCAM),
- stromal (CD10 ,MME,fibo or CD31 ,PECAM1,endo)
然后每个亚群进行第二层次细分亚群,甚至第三层次,第四次分群,结构清晰明了。
但是进行到第四层次分群问题就出来了,这个时候我们没办法区分单细胞不同亚群和状态了,以T细胞为例,第一层次分群,T细胞属于免疫细胞大类,然后对免疫细胞进行第三层次,T细胞这个时候属于淋巴细胞,然后它可以很明确跟B细胞区分开来。
但是它自己的第三层次细分,就很麻烦了。
如果是按照功能进行划分,naive, memory ,effector,cytotoxic,Exhaustion,其中仅仅是记忆T细胞(memory )又可以细分:
- TEM:效应记忆T细胞(Effector memory T Cell)
- TCM:中枢记忆T细胞(Central memory T Cell)
- Tpm:外周记忆T细胞(Peripheral Memory T Cell)
- TRM:组织驻留记忆T细胞(Tissue Resident Memory)
- TSCM:干细胞记忆T细胞(Stem cell memory T cell)
其它的比如naive, effector,cytotoxic,Exhaustion 也是各自细分起来没完没了!而且所谓的功能细分亚群,就很少有非常特异性的标记基因可以供背诵。虽然不少文章都会给出自己的基因列表,比如:
- naive (LEF1, SELL, TCF7),
- effector (IFNG),
- cytotoxicity (GZMB, PRF1),
- early and general exhaustion (PDCD1, CTLA4, ENTPD1 ) .
- antigen presentation (CD74, HLA-DRB1/5, HLA-DQA2)
但是大家把这些基因去可视化,就会发现并没有那么理想:
代码语言:javascript复制FeaturePlot(sce,c('NKG7','TCF7'))
FeaturePlot(sce,c('CD4','CD8A'))
如下所示,可以看到 CD4和CD8 的区分度勉强还行,但是远不如 NKG7 和 TCF7的区分度好:
一些标记基因
另外一个比较确定的反而是高表达FOXP3的treg细胞亚群,它是CD4的一种~
但是 CD4和CD8 的区分太过于深入人心了,所以会出现 CD4和CD8 的亚群里面各自 都有naive, memory ,effector,cytotoxic,Exhaustion各自亚群的情况,如下所示:
CD4和CD8 的亚群各自功能区分
功能的划分方式也是五花八门,并不都是 naive, memory ,effector,cytotoxic,Exhaustion 的分类系列,也有的是根据基因集计算resident, cytotoxic, exhausted, and costimulatory score :
- 5 resident markers (RUNX3, NR4A1, CD69, CXCR6, and NR4A3),
- 7 cytotoxicity associated genes (PRF1, IFNG, GNLY, NKG7, GZMB, GZMA, CST7, and TNFSF10),
- 5 exhausted markers (CTLA4, HAVCR2, LAG3, PDCD1, and TIGIT)
- 6 costimulatory molecular genes (ICOS, CD226, TNFRSF14, TNFRSF25, TNFRSF9, and CD28)
细胞亚群可以仅仅是按照标号或者标记基因命名
比如文章《2021-GSE146100-耐药-肺癌》里面 ,仅仅是 cd8就有9个群,每个群,都是其对应的高表达量基因命名而已,并不是生物学意义功能命名。如下所示:
可以看到部分基因命名的细胞亚群,作者同时也给出来了一些功能命名。比如 CM和RM的,EFF和EX的。可以勉强参考前面的基因列表,比如:
- naive (LEF1, SELL, TCF7),
- effector (IFNG),
- cytotoxicity (GZMB, PRF1),
- early and general exhaustion (PDCD1, CTLA4, ENTPD1 ) .
- antigen presentation (CD74, HLA-DRB1/5, HLA-DQA2)
仅仅是记忆T细胞亚群可以高度细分
比如发表在期刊:Nature Immunology (2021-05-24)的文章,链接:https://www.nature.com/articles/s41590-021-00933-1,数据是公开的:GSE158769 ,采用CITE-seq,就是分析了来自秘鲁的259个肺结核(tuberculosis , TB) 病人的500,089个记忆T细胞,得到31种细胞状态。
这样就非常可怕了,我们所认知的单一细胞亚群(记忆T细胞),被他们区分成为了 31个亚群。哪怕是前面记忆T细胞(memory )又可以细分:
- TEM:效应记忆T细胞(Effector memory T Cell)
- TCM:中枢记忆T细胞(Central memory T Cell)
- Tpm:外周记忆T细胞(Peripheral Memory T Cell)
- TRM:组织驻留记忆T细胞(Tissue Resident Memory)
- TSCM:干细胞记忆T细胞(Stem cell memory T cell)
也不至于有31种啊,它这个记忆T细胞里面的就横跨了CD4和CD8 :
- 23/31 were CD4 ;
- five were CD8 ; one (C-24) was a mixture;
- Two clusters (C-30 and C-31) were CD4−CD8−
最后推荐一个带网页工具的整合研究
链接是:https://tanlab4generegulation.shinyapps.io/Tcell_Atlas/
带网页工具的整合研究
再推荐一个硕士毕业论文
工程硕士学位论文:《基于单细胞测序对 T 淋巴细胞亚型的 重新认识和重聚类分析》
工程硕士学位论文
另外,超级欢迎大家交流T细胞细分亚群经验:
代码语言:javascript复制genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A',
'CCR7', 'SELL' , 'TCF7','CXCR6' , 'ITGA1',
'FOXP3', 'IL2RA', 'CTLA4','GZMB', 'GZMK','CCL5',
'IFNG', 'CCL4', 'CCL3' ,
'KLRB1','NCR1', # NK
'PRF1' , 'NKG7','MKI67' ,'TOP2A')
可以是丰富我们的特异性高表达量基因列表,或者说特异性生物学功能基因集。
多多益善!