我在 有一种生意双方都觉得亏 提到过,专业的工程师觉得为客户学习一个R包收费2000合情合理,但是委托者觉得一个项目全套分析收2000才合理。也就是说大部分情况下,大家自己的课题的个性化需求,是很难找到合适的合作者来代替你完成的,不得不学习多种多样的R包算法,而且通常是找不到交流者。
所以我自己在2019年录制了两套不同层级的单细胞转录组数据分析视频教程,还配套了视频学习笔记,今年(2020)在培养学徒的过程中,我又安排学徒根据这两套视频精炼成为了10个笔记,大家可以在:单细胞转录组数据的个性化分析汇总全部找到。
实际上,目前单细胞转录组数据已经走入寻常百姓家,意味着大家可能并不一定要过于关心个性化分析部分了,越来越多的单细胞转录组数据仅仅是对一个科研故事的锦上添花罢了。除非你的故事里面只有单细胞转录组数据本身,比如2020年1月文章:A Patient-Derived Glioblastoma Organoid Model and Biobank Recapitulates Inter- and Intra-tumoral Heterogeneity. Cell 2020 Jan 9;180(1):188-204.e22. PMID: 31883794 是类器官的研究,我在生信技能树分享过十几篇类似的研究。不过现在到了2020,这个领域的研究 竞争越来越激烈了,单细胞转录组数据只不过是6大数据之一,作者从53名胶质母细胞瘤病人建立了包括有70个GBOs的biobank。
- 作者对培养成功的GBOs进行了H&E染色、CD31血管系统染色、Ki67染色以及与神经发育相关的一系列标志物染色。分析发现GBOs不仅保持了肿瘤异质性,而且多种分子的表达模式与原肿瘤组织非常类似。
- 作者进一步对样本进行转录组测序分析对比发现,原肿瘤和对应的GBOs的转录组表达情况高度相似。
- 之后又进行了全外显子测序发现原肿瘤样本中的体细胞突变和CNVs在GBOs中几乎都得到保持。肿瘤之间的异质性也同样得到维持。
- 作者又在同一个GBOs的不同区域进行转录组和外显子测序进行分析发现,肿瘤内的异质性一样得到了保持。
- 为了分析GBOs是否也保持了细胞类型的异质性和相应的分子特性,作者对三个病人样本和相应的GBOs进行了单细胞转录组分析,也得到了肯定的结果。
认识项目里面的单细胞转录组数据集
其中单细胞转录组数据集在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE141946
可以清楚的看到是12个10X样本:
代码语言:javascript复制GSM4216905 Single cells UP-8036 Tumor
GSM4216906 Single cells UP-8036 GBO 2wk
GSM4216907 Single cells UP-8036 GBO 8wk
GSM4216908 Single cells UP-8165C Tumor
GSM4216909 Single cells UP-8165C 2wk
GSM4216910 Single cells UP-8165C 24wk
GSM4216911 Single cells UP-8165PV Tumor
GSM4216912 Single cells UP-8165PV 2wk
GSM4216913 Single cells UP-8165PV 24wk
GSM4216914 Single cells UP-8167 Tumor
GSM4216915 Single cells UP-8167 2wk
GSM4216916 Single cells UP-8167 24wk
文章也给出了这12个样本的简单指标:
单细胞质量控制指标
如果你感兴趣,10X仪器的单细胞转录组数据上游分析,走cellranger流程,我们在单细胞天地多次分享过流程笔记,大家可以自行前往学习,如下:
- 单细胞实战(一)数据下载
- 单细胞实战(二) cell ranger使用前注意事项
- 单细胞实战(三) Cell Ranger使用初探
- 单细胞实战(四) Cell Ranger流程概览
- 单细胞实战(五) 理解cellranger count的结果
肿瘤项目的单细胞首先工具CNV来区分恶性与否
这12个10x数据里面,都是可以分群后,首先拿到Macrophage/microglia and T cells 这样的,可以作为inferCNV的reference,可以看我以前在单细胞天地的教程:使用inferCNV分析单细胞转录组中拷贝数变异 ,但是第一步3个输入文件就制作失败,值得单独写教程强调一下这个解决方案。当然了,如果你还卡在第一步安装R包,请看我昨天在生信菜鸟团的教程:有些R包是你的电脑操作系统缺东西,但也有一些不是 。
Macrophage/microglia and T cells in each sample were used as the non-neoplastic reference.
这里3个病人独立走inferCNV流程:
走inferCNV流程
可以看到,肿瘤细胞具有病人特异性,而作为reference的Macrophage/microglia and T cells可以跨越病人聚集到一起。
肿瘤细胞有单细胞水平的病人特异性
同一个肿瘤病人的不同部位的异质性
因为这12个样本来源于3个病人,其中一个病人是有两个肿瘤样品的,所以单独拿出来分析:
肿瘤病人不同部位具有特异性
可以很清楚的看到,这同一个病人的2个肿瘤,是可以融合起来进行聚类分群的,但是仍然是有一些基因仅仅是在其中一个肿瘤部位表达,而不会在另外一个肿瘤部位表达。这里作者拿GPNMB举例:
The right panel shows the expression of GPNMB. Note cells with high levels of GPNMB expression were only present in UP-8165-C tumor and derived GBOs, but not in UP-8165-PV tumor and derived GBOs.
同一个病人当然是可以混合起来分群,看
同一个病人不同细胞亚群相关性
这4个10x样本混起来分群后如下:
全部样本的全部细胞综合分群
其它病人,都是可以单独做这个类似的分析。
这就是这篇文章对他们的12个单细胞转录组数据的全部分析了,如你所见,其实并没有太多的个性化分析。基本上就是细胞聚类分群,然后不同亚群进行生物学解释。基本上就是前面的10讲:
- 单细胞转录组数据的降维聚类分群
- 单细胞转录组数据处理之细胞亚群注释
- 把拿到的亚群进行更细致的分群
- 单细胞转录组数据处理之细胞亚群比例比较