代码语言:javascript复制如果你搜索它可以发现这个GSE130000数据集其实早在2020年8月21日 就公开了,而且我们的学徒还拿它练习过 :
GSE130000 - GEO Accession viewer
2020年8月21日 — Series GSE130000 ; Summary, To understand the recurrence of ovarian cancer, we profiled 13369 single cells from 8 ovarian cancer samples,
进入GSE130000数据集主页:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130000
可以看到其对应的文献是:Single-cell RNA-seq recognized the initiator of epithelial ovarian cancer recurrence. Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 :就是新鲜出炉啦,再早几天都查不到它信息。
该文章走的也是降维聚类分群,以及细分亚群的思路。如下所示:
降维聚类分群
可以的看到,第一层次区分成为了6个亚群,如下所示:
- eight clusters were of epithelial origin (EPCAM).
- cancer-associated fibroblasts (CAFs containing two clusters) (THY1)
- T cells (CD2)
- macrophages (C1QB)
- endothelial cells (VWF)
- normal ovary tissue (STAR)
可以看到非常符合认知,8个癌症样品所以它们的上皮细胞都是独立成为单细胞亚群,但是其它细胞可以跨越样品差异而聚集成为细胞亚群。
这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
接下来作者的重心是描述 metastasis tumors ( M1, b: M2) and relapse tumors ( R1, d: R2). 的上皮细胞的拟时序,功能富集,以及细胞通讯情况。
让我们仔细看看该数据集 提交人员的信息:
代码语言:javascript复制Submission date Apr 17, 2019
Last update date Jan 12, 2022
Contact name Tongtong Kan
E-mail(s) tongtongkan@hotmail.com
Organization name City University of Hong Kong
也就是说早在2019就提交了这个数据集,起码是2018年做的单细胞转录组,那个时候一个样品起码是5万块钱人民币,这8个样品也就是说 仅仅是单细胞测序就耗费了40万。这8个病人 的单细胞转录组数据都提供表达量矩阵文件的下载:
代码语言:javascript复制GSM3729170_P1_dge.txt.gz 7.6 Mb
GSM3729171_P2_dge.txt.gz 6.0 Mb
GSM3729172_P3_dge.txt.gz 7.8 Mb
GSM3729173_P4_dge.txt.gz 6.8 Mb
GSM3729174_M1_dge.txt.gz 2.7 Mb
GSM3729175_M2_dge.txt.gz 5.3 Mb
GSM3729176_R1_dge.txt.gz 12.8 Mb
GSM3729177_R2_dge.txt.gz 7.9 Mb
但是直到2022才发表了它, 在 Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 。
有意思的是,我在搜索这个GSE130000数据集的时候发现了一个基于它的单细胞数据挖掘文章,标题是:《Single-Cell RNA-Sequencing Portraying Functional Diversity and Clinical Implications of IFI6 in Ovarian Cancer》,期刊和时间是:Front. Cell Dev. Biol., 25 August 2021 | https://doi.org/10.3389/fcell.2021.677697
确实是非常优秀啊,建议大家都可以下载两个文章对比读一下,非常精彩!
因为这个数据挖掘文章是早于公共数据集原始文献,所以理论上研究者们没办法去参考公共数据集原始文献的分析方法。
也是同样的第一层次降维聚类分群,如下所示:
第一层次降维聚类分群
可以看到,仍然是上皮细胞,成纤维细胞,T细胞和髓系,以及内皮细胞。有意思的是因为这个是数据挖掘,所以作者把常规TCGA数据挖掘的思路也迁移过来了,比如使用estimate 去计算tumor purity, immune score, and stromal score ,这样的肿瘤免疫微环境分析工具我们讲了很多了,目录是:
- estimate的两个打分值本质上就是两个基因集的ssGSEA分析
- 针对TCGA数据库全部的癌症的表达量矩阵批量运行estimate
- 不同癌症内部按照estimate的两个打分值高低分组看蛋白编码基因表达量差异
- 使用CIBERSORT算法推断全部tcga样品的免疫细胞比例
当然了,作者既然是单细胞数据挖掘,肯定是少不了单细胞肿瘤拷贝数分析,我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程:
- CNS图表复现09—上皮细胞可以区分为恶性与否
- CNS图表复现13—使用inferCNV来区分肿瘤细胞的恶性与否
- CNS图表复现14—检查文献的inferCNV流程
- CNS图表复现15—inferCNV流程输入数据差异大揭秘
- CNS图表复现16—inferCNV结果解读及利用
- CNS图表复现17—inferCNV结果解读及利用之进阶
再比如转录因子分析,细胞通讯,以及临床模型构建,我这里就不一一赘述啦,再次欢迎大家下载两个文献去对比阅读。
如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:
代码语言:javascript复制We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.
十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你