最近刷到了一个发表在Molecular Cancer期刊的普通单细胞转录组文章《Single-cell RNA-seq reveals the genesis and heterogeneity of tumor microenvironment in pancreatic undifferentiated carcinoma with osteoclast-like giant-cells》,分析真的是超级常规了,就是第一层次降维聚类分群,然后对每个细分亚群进行更加细致的探索而已,最后一个细胞通讯纵览全局。
这个Molecular Cancer期刊大家应该是不陌生了,是BMC(隶属于Springer Nature)旗下 ,2002年在英国创刊;2021年的期刊影响因子为41.444,在肿瘤学排名7/245,生化与分子生物学排名3/296。
其实关于 pancreatic ductal adenocarcinoma (PDAC) 的普通单细胞转录组文章起码十几个了,毕竟这个癌症可是目前的癌王,预后非常差,但是本文作者关心的是 Undifferentiated carcinoma with osteoclast-like giant cells (OGCs) of pancreas (UCOGCP) ,是胰腺癌的一个稀有亚型。
第一层次降维聚类分群
肿瘤相关单细胞数据集常规分析都是拿到表达量矩阵后的第一层次降维聚类分群通常是:
- immune (CD45 ,PTPRC),
- epithelial/cancer (EpCAM ,EPCAM),
- stromal (CD10 ,MME,fibo or CD31 ,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。
绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
4个10x单细胞转录组数据总计是18, 376 cells,然后选择0.6分辨率得到0-19的20个编号亚群,汇总成为了10个生物学意义亚群,如下所示:
- myeloid cells (LYZ, C1QA, and CD163)
- endothelial cells (PECAM1 and VWF)
- NK/T cells (CD3D and NKG7)
- ductal cells type I, II, and MKI67 (KRT19)
- B cells (CD79A and IGKC)
- acinar cells (PRSS1)
- mast cells (TPSAB1 and TPSB2)
- fibroblasts (COL3A1 and COL1A2)
本文的第一层次和第二层次其实并没有完全的区分,是否严格的层级区分完全是唯心主义哈。
可视化如下所示的亚群:
可视化如下所示的亚群
各个亚群细分
本文主要是关心肿瘤恶性细胞,也就是上皮细胞的各种状态,所以大量使用拟时序,通路富集和转录因子分析。当然这个策略在每个单细胞亚群都是一模一样的,有如下所示的亚群:
- UCOGCP held distinct ductal profile.
- Trajectory analysis and function enrichment of the UCOGCP-specific EMT cells.
- Heterogeneity of epithelial cells in UCOGCP sample (pca_ai1).
- Heterogeneity of tumor associated Myeloid cells.
- Heterogeneity of tumor associated fibroblast cells.
- Heterogeneity of tumor associated endothelial cells.
我们以最后的 内皮细胞的亚群细分 为例:
内皮细胞的亚群细分
其它的成纤维细胞,髓系等,都是一模一样的细分,如果你的背景知识足够,就给出生物学名字,如果生物学背景不够,简单的顺序编号也可以。其实有3个策略进行命名:
- 每个亚群的top基因选择最熟悉的那个基因作为命名
- 纯粹的亚群数字编号即可
- 每个亚群的top基因的生物学功能进行命名
这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
题外话
哪怕是如此常规的单细胞转录组项目数据分析,其实工作量也不小,你会为这样的数据分析付费多少呢?每个细分亚群都大量使用拟时序,通路富集和转录因子分析。