MS4A基因家族在哪些单细胞亚群特异性高表达呢

2022-07-26 10:30:38 浏览数 (1)

做了几百个单细胞数据集的降维聚类分群后,发现MS4A基因家族经常出现在不同数据集的不同单细胞亚群特异性高表达热图里面,就想着探索一下。

我们这里以大家熟知的pbmc3k数据集为例。大家先安装这个数据集对应的包,并且对它进行降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释

代码语言:javascript复制
# 0.安装R包 ---- 
# InstallData("pbmc3k") 

library(SeuratData) #加载seurat数据集  
getOption('timeout')
options(timeout=10000)
#InstallData("pbmc3k")  
data("pbmc3k")  
sce <- pbmc3k.final   
library(Seurat)
table(Idents(sce))
DimPlot(sce,label = T)

这个时候,我们很容易检查MS4A基因家族基因有哪些,并且可视化:

代码语言:javascript复制
library(Seurat)
library(ggplot2)
th=theme(axis.text.x = element_text(angle = 45, 
                                    vjust = 0.5, hjust=0.5)) 


genes_to_check= rownames(sce)[grepl('^MS[0-9][AB]',rownames(sce))]
genes_to_check
p <- DotPlot(sce, features = genes_to_check,
             assay='RNA'  )    coord_flip()  th

p  

但是这个pbmc3k数据集是比较早期的10x技术,所以它其实没办法找到太多基因,如下所示:

比较早期的10x技术

可以看到,MS4A1是B淋巴细胞特异性的,而MS4A6A和MS4A7恰好把两个不同的单核细胞区分开来了。

然后我找一个小鼠数据集,同样的代码可视化,如下所示:

MS4A基因家族在小鼠的各个单细胞亚群

上面的细胞亚群各自的生物学归类,如下所示:

胞亚群各自的生物学归类

可以的看到, 1,4,10,12,13,17,18,19,22,23是免疫细胞里面的髓系细胞,他们的MS4A基因家族表达量具有异质性,同理, 对T细胞这样的淋巴细胞也是如此。另外就是,总体上来说,成纤维这样的非免疫细胞是不会表达MS4A基因家族里面的基因的。虽然髓系和淋巴系里面的MS4A基因家族有异质性,但是它们很容易被区分,如下所示:

髓系和淋巴系里面的MS4A基因家族

尤其是这个MS4A的 a,b,c 很容易把 髓系和淋巴系区分, 其中a,c是髓系,而b 是淋巴系

前面的降维聚类分群,走seurat流程进行单细胞降维聚类分群,这样的基础分析,有基础10讲:

  • 01. 上游分析流程
  • 02.课题多少个样品,测序数据量如何
  • 03. 过滤不合格细胞和基因(数据质控很重要)
  • 04. 过滤线粒体核糖体基因
  • 05. 去除细胞效应和基因效应
  • 06.单细胞转录组数据的降维聚类分群
  • 07.单细胞转录组数据处理之细胞亚群注释
  • 08.把拿到的亚群进行更细致的分群
  • 09.单细胞转录组数据处理之细胞亚群比例比较

全部的可视化代码是:

代码语言:javascript复制

library(Seurat)
library(ggplot2)
library(stringr)
th=theme(axis.text.x = element_text(angle = 45, 
                                    vjust = 0.5, hjust=0.5)) 


genes_to_check= rownames(sce)[grepl('^MS[0-9][AB]',rownames(sce),ignore.case = T)]
genes_to_check
genes_to_check=c(genes_to_check, 'TMEM176A' , 'TMEM176B')
colnames(sce@meta.data)
p <- DotPlot(sce, features = sort(str_to_title(genes_to_check)),
             assay='RNA' ,group.by = "RNA_snn_res.0.8"  )    coord_flip()  th

p  
gplots::balloonplot(table(sce$RNA_snn_res.0.8,sce$celltype))

但是我随意挑选了一个人类肺癌单细胞数据集,发现规则就变化了,前面总结的这个MS4A的 a,b,c 很容易把 髓系和淋巴系区分, 其中a,c是髓系,而b 是淋巴系。

人类肺癌单细胞数据集

这个时候得到的规则是 MS4A基因家族的1代表B细胞,而2代表肥大细胞,4,6,7都是髓系细胞(前面也提到的MS4A6A和MS4A7恰好把两个不同的单核细胞区分开来)。

0 人点赞