众所周知,常规bulk转录组因为样品制备的时候是一整块组织(肿瘤组织有正常上皮细胞,恶性上皮细胞,免疫细胞和基质细胞等等),内部的多种多样的细胞的每个基因表达量都会混合起来成为一个矩阵。当然了,目前有一些算法可以做去卷积把单个表达量矩阵拆分成为多个单细胞亚群的表达量矩阵。也有一些细胞分选的方式,可以提纯某种单细胞亚群后再做bulk转录组,勉强也算是单细胞亚群水平的表达量矩阵。
那么实际上我们取3个癌症组织和3个血液组织做bulk转录组,对这两个分组找表达量差异,首先癌症组织里面特有正常上皮细胞,恶性上皮细胞,它们这两个单细胞亚群特异性高表达量的基因基本上在血液里面都不会有,肯定是在癌症对血液上调基因列表里面。为了更精确的差异,我们会放弃血液,选择癌旁组织,这样,理论上大家的单细胞亚群组成是类似的,当然了具体的单细胞亚群比例肯定是不一样的哦。这个时候,癌症对癌旁的bulk层面的差异,其实更多的是单细胞亚群占比不一样的导致的部分单细胞亚群特异性高表达量的基因凸显出来,当然了同时也会确实有一些基因在所有单细胞亚群里面都是癌症跟癌旁不一样,比如代谢基因干扰素基因等等。
这个时候,我们一个很自然的课题设计思路, 就是把bulk转录组的差异基因在单细胞水平都检查一遍,看看它具体是在某个特异的单细胞亚群里面变化呢,还是在全部的单细胞亚群里面变化。比如文章:《Radiation-activated secretory proteins of Scgb1a1 club cells increase the efficacy of immune checkpoint blockade in lung cancer》,研究者们首先是做了bulk转录组,样品如下所示:
代码语言:javascript复制GSM4777869 0-1_S13 (IgG_0Gy_1)
GSM4777870 0-2_S14 (IgG_0Gy_2)
GSM4777871 0-3_S15 (IgG_0Gy_3)
GSM4777872 4_2_S26 (IgG_4Gy_1)
GSM4777873 4_3_S27 (IgG_4Gy_2)
GSM4777874 8_1_S31 (IgG_8Gy_1)
GSM4777875 8_2_S32 (IgG_8Gy_2)
GSM4777876 8_3_S33 (IgG_8Gy_3)
GSM4777877 0-4_S16 (PD-1_0Gy_1)
GSM4777878 0-5_S17 (PD-1_0Gy_2)
GSM4777879 4_4_S28 (PD-1 4Gy_1)
GSM4777880 4_5_S29 (PD-1 4Gy_2)
GSM4777881 4_6_S30 (PD-1 4Gy_3)
GSM4777882 8_4_S34 (PD-1_8Gy_1)
GSM4777883 8_5_S35 (PD-1_8Gy_2)
GSM4777884 8_6_S36 (PD-1_8Gy_3)
可以看到,主要是 0Gy,4Gy,8Gy 这3个时间点分组,然后是 PD-1处理和IgG对照的分组。
其差异基因挑选策略:
差异基因挑选策略
可以看到有两个队列, IgG or anti-pD-1 cohort,然后每个队列里面的都是 4 Gy-RT (compared to 0 Gy and 8 Gy-RT) ,得到的共有差异基因,是 144个,它都是在4 Gy-RT这个组里面表达量,而且不具备队列特殊性。
然后把这144个基因,算作是一个功能基因集,去单细胞里面打分即可:
单细胞打分
这里采用了最简单粗暴的 Mean expression values of the 144 signature genes ,没有去使用Seurat包的AddModuleScore函数,或者UCell和AUCell等包,还是蛮奇怪的哦。
单细胞的结果也可以去常规bulk转录组里面验证,比如上面的单细胞降维聚类分群后,可以得到 club cell signature genes ,然后就可以拿这个单细胞亚群特异性高表达量基因列表去bulk转录组表达量矩阵里面做gsea分析,是 4 Gy-RT group as compared to the 0 Gy and 8 Gy-RT groups 的对比:
单细胞的结果也可以去常规bulk转录组里面验证
学徒作业
完成上面的3个图,首先是bulk转录组的差异分析,我相信大家都没有问题了。
拿到4 Gy-RT (compared to 0 Gy and 8 Gy-RT) ,得到的共有差异基因,大约100个即可。
然后对 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE157881 的单细胞数据集进行基本都是降维聚类分群:
代码语言:javascript复制GSM4777885 0Gy-CD45-minus_S15
GSM4777886 0Gy-CD45-plus_S14
GSM4777887 4Gy-CD45-minus_S17
从里面定位到上皮细胞里面的 club 细胞子集 ,应该是数量很少的,看看它是否比其它单细胞亚群特异性的高表达前面的bulk水平的差异基因。
我简单处理了一下,发现蛮奇怪的, 基本上没有什么上皮细胞,都是内皮细胞:
基本上都是内皮细胞
我的命名是:
代码语言:javascript复制celltype[celltype$ClusterID %in% c( 1,2,5,10,16 ),2]='endo'
celltype[celltype$ClusterID %in% c( 15),2]='fibo'
celltype[celltype$ClusterID %in% c( 19:22),2]='double'
celltype[celltype$ClusterID %in% c( 17),2]='epi'
看起来也没有问题:
命名的抉择
大家可以赶快下载这个数据集,同样的处理,跟我讨论一下。