这近100种单细胞亚群的2348个标记基因好用吗

2023-08-31 09:59:09 浏览数 (2)

我喜欢肉眼看自己收集整理好的基因列表去人工给标准降维聚类分群后的单细胞亚群生物学名字,比如前面我们系统性梳理了各种器官的上皮细胞的细分亚群,以及其对应的标记基因列表

  • 乳腺上皮细胞单细胞亚群
  • 肝上皮细胞单细胞亚群
  • 肺上皮细胞单细胞亚群
  • 结直肠上皮细胞单细胞亚群
  • 胃上皮细胞单细胞亚群
  • 肾上皮细胞单细胞亚群

这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

  • 01. 上游分析流程
  • 02.课题多少个样品,测序数据量如何
  • 03. 过滤不合格细胞和基因(数据质控很重要)
  • 04. 过滤线粒体核糖体基因
  • 05. 去除细胞效应和基因效应
  • 06.单细胞转录组数据的降维聚类分群
  • 07.单细胞转录组数据处理之细胞亚群注释
  • 08.把拿到的亚群进行更细致的分群
  • 09.单细胞转录组数据处理之细胞亚群比例比较

但是这样的人工给标准降维聚类分群后的单细胞亚群生物学名字非常依赖于自己收集整理好的基因列表,我们给大家的标准代码里面 是有很多基因列表,详见:小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码)

不过我整理的基因列表仅仅是符合我的生物学背景,而且偏向于肿瘤学研究领域。最近看到了2023年6月的文章:《scQCEA: a framework for annotation and quality control report of single-cell RNA-sequencing data》里面提到了作者整理好的这近100种单细胞亚群的2348个标记基因。包括了:95 pre-defined reference gene sets, and 2348 marker genes, and is available at https://github.com/isarnassiri/scQCEA/tree/Repository-of-Cell-Type-Specific-Gene-Sets.

让我们打开这些基因列表csv文件看看

作者在这里把血液免疫细胞跟其它细胞区分开了:

代码语言:javascript复制
     9 blood_cell_category_rna_MAIT.tsv
      20 blood_cell_category_rna_T-reg_Cell.tsv
      42 blood_cell_category_rna_basophil_Cell.tsv
       2 blood_cell_category_rna_classical_Monocytes.tsv
      27 blood_cell_category_rna_eosinophil_Cell.tsv
       3 blood_cell_category_rna_gdT-cell_Cell.tsv
       5 blood_cell_category_rna_intermediate_Monocytes.tsv
       5 blood_cell_category_rna_memory_B-cells.tsv
       3 blood_cell_category_rna_memory_T-cells_CD8.tsv
       7 blood_cell_category_rna_myeloid_Dendritic.tsv
       5 blood_cell_category_rna_naive_B-cells.tsv
       4 blood_cell_category_rna_naive_T-cells_CD4.tsv
       2 blood_cell_category_rna_naive_T-cells_CD8.tsv
      88 blood_cell_category_rna_neutrophil_Cell.tsv
       3 blood_cell_category_rna_non-classical_Monocytes.tsv
      46 blood_cell_category_rna_plasmacytoid_Dendritic.tsv

以及:

代码语言:javascript复制
      8 noBlood_Alveolar_cells_type_1.tsv
      11 noBlood_Alveolar_cells_type_2.tsv
      36 noBlood_Astrocytes.tsv
      10 noBlood_Basal_prostatic_cells.tsv
       4 noBlood_Basal_respiratory_cells.tsv
       2 noBlood_Basal_squamous_epithelial_cells.tsv
      22 noBlood_Bipolar_cells.tsv
       8 noBlood_Breast_glandular_cells.tsv
       4 noBlood_Breast_myoepithelial_cells.tsv
      58 noBlood_Cardiomyocytes.tsv
       6 noBlood_Cholangiocytes.tsv
       3 noBlood_Club_cells.tsv
      10 noBlood_Collecting_duct_cells.tsv
      25 noBlood_Cone_photoreceptor_cells.tsv
       2 noBlood_Cytotrophoblasts.tsv
       6 noBlood_Distal_enterocytes.tsv
      14 noBlood_Distal_tubular_cells.tsv
       2 noBlood_Ductal_cells.tsv
     129 noBlood_Early_spermatids.tsv
       3 noBlood_Endometrial_ciliated_cells.tsv
       4 noBlood_Endometrial_stromal_cells.tsv
       5 noBlood_Endothelial_cells.tsv
      19 noBlood_Enteroendocrine_cells.tsv
      41 noBlood_Erythroid_cells.tsv
      24 noBlood_Excitatory_neurons.tsv
       7 noBlood_Exocrine_glandular_cells.tsv
      29 noBlood_Extravillous_trophoblasts.tsv
       5 noBlood_Fibroblasts.tsv
      28 noBlood_Gastric_mucus-secreting_cells.tsv
       4 noBlood_Glandular_and_luminal_cells.tsv
      15 noBlood_Granulosa_cells.tsv
     150 noBlood_Hepatocytes.tsv
      11 noBlood_Hofbauer_cells.tsv
      12 noBlood_Horizontal_cells.tsv
      26 noBlood_Inhibitory_neurons.tsv
      14 noBlood_Intestinal_goblet_cells.tsv
       3 noBlood_Ionocytes.tsv
       5 noBlood_Kupffer_cells.tsv
      17 noBlood_Langerhans_cells.tsv
     266 noBlood_Late_spermatids.tsv
       3 noBlood_Leydig_cells.tsv
      19 noBlood_Melanocytes.tsv 

有意思的是,作者收集整理的基因跟我想象的很不一样,比如;

代码语言:javascript复制
cut -f 1 noBlood_Fibroblasts.tsv


MYOC
SFRP2
VEGFD

而且作者这里也不是采用我们标准的单细胞可视化标记基因的方法。以前我们做了一个投票:可视化单细胞亚群的标记基因的5个方法,下面的5个基础函数相信大家都是已经烂熟于心了:

  • VlnPlot(pbmc, features = c("MS4A1", "CD79A"))
  • FeaturePlot(pbmc, features = c("MS4A1", "CD79A"))
  • RidgePlot(pbmc, features = c("MS4A1", "CD79A"), ncol = 1)
  • DotPlot(pbmc, features = unique(features)) RotatedAxis()
  • DoHeatmap(subset(pbmc, downsample = 100), features = features, size = 3)

是比较自动化的AUCell包的算法 :

AUCell包的算法

0 人点赞