单细胞数据挖掘比公共数据集原始文献发表更早是一种什么样的体验

2022-03-03 12:58:14 浏览数 (1)

如果你搜索它可以发现这个GSE130000数据集其实早在2020年8月21日 就公开了,而且我们的学徒还拿它练习过 :

代码语言:javascript复制
GSE130000 - GEO Accession viewer 
2020年8月21日 — Series GSE130000 ; Summary, To understand the recurrence of ovarian cancer, we profiled 13369 single cells from 8 ovarian cancer samples,

进入GSE130000数据集主页:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130000

可以看到其对应的文献是:Single-cell RNA-seq recognized the initiator of epithelial ovarian cancer recurrence. Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 :就是新鲜出炉啦,再早几天都查不到它信息。

该文章走的也是降维聚类分群,以及细分亚群的思路。如下所示:

降维聚类分群

可以的看到,第一层次区分成为了6个亚群,如下所示:

  • eight clusters were of epithelial origin (EPCAM).
  • cancer-associated fibroblasts (CAFs containing two clusters) (THY1)
  • T cells (CD2)
  • macrophages (C1QB)
  • endothelial cells (VWF)
  • normal ovary tissue (STAR)

可以看到非常符合认知,8个癌症样品所以它们的上皮细胞都是独立成为单细胞亚群,但是其它细胞可以跨越样品差异而聚集成为细胞亚群。

这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

  • 01. 上游分析流程
  • 02.课题多少个样品,测序数据量如何
  • 03. 过滤不合格细胞和基因(数据质控很重要)
  • 04. 过滤线粒体核糖体基因
  • 05. 去除细胞效应和基因效应
  • 06.单细胞转录组数据的降维聚类分群
  • 07.单细胞转录组数据处理之细胞亚群注释
  • 08.把拿到的亚群进行更细致的分群
  • 09.单细胞转录组数据处理之细胞亚群比例比较

接下来作者的重心是描述 metastasis tumors ( M1, b: M2) and relapse tumors ( R1, d: R2). 的上皮细胞的拟时序,功能富集,以及细胞通讯情况。

让我们仔细看看该数据集 提交人员的信息:

代码语言:javascript复制
Submission date Apr 17, 2019
Last update date Jan 12, 2022
Contact name Tongtong Kan
E-mail(s) tongtongkan@hotmail.com
Organization name City University of Hong Kong

也就是说早在2019就提交了这个数据集,起码是2018年做的单细胞转录组,那个时候一个样品起码是5万块钱人民币,这8个样品也就是说 仅仅是单细胞测序就耗费了40万。这8个病人 的单细胞转录组数据都提供表达量矩阵文件的下载:

代码语言:javascript复制
GSM3729170_P1_dge.txt.gz 7.6 Mb
GSM3729171_P2_dge.txt.gz 6.0 Mb
GSM3729172_P3_dge.txt.gz 7.8 Mb
GSM3729173_P4_dge.txt.gz 6.8 Mb
GSM3729174_M1_dge.txt.gz 2.7 Mb
GSM3729175_M2_dge.txt.gz 5.3 Mb
GSM3729176_R1_dge.txt.gz 12.8 Mb
GSM3729177_R2_dge.txt.gz 7.9 Mb

但是直到2022才发表了它, 在 Oncogene 2022 Feb;41(6):895-906. PMID: 34992217 。

有意思的是,我在搜索这个GSE130000数据集的时候发现了一个基于它的单细胞数据挖掘文章,标题是:《Single-Cell RNA-Sequencing Portraying Functional Diversity and Clinical Implications of IFI6 in Ovarian Cancer》,期刊和时间是:Front. Cell Dev. Biol., 25 August 2021 | https://doi.org/10.3389/fcell.2021.677697

确实是非常优秀啊,建议大家都可以下载两个文章对比读一下,非常精彩!

因为这个数据挖掘文章是早于公共数据集原始文献,所以理论上研究者们没办法去参考公共数据集原始文献的分析方法。

也是同样的第一层次降维聚类分群,如下所示:

第一层次降维聚类分群

可以看到,仍然是上皮细胞,成纤维细胞,T细胞和髓系,以及内皮细胞。有意思的是因为这个是数据挖掘,所以作者把常规TCGA数据挖掘的思路也迁移过来了,比如使用estimate 去计算tumor purity, immune score, and stromal score ,这样的肿瘤免疫微环境分析工具我们讲了很多了,目录是:

  • estimate的两个打分值本质上就是两个基因集的ssGSEA分析
  • 针对TCGA数据库全部的癌症的表达量矩阵批量运行estimate
  • 不同癌症内部按照estimate的两个打分值高低分组看蛋白编码基因表达量差异
  • 使用CIBERSORT算法推断全部tcga样品的免疫细胞比例

当然了,作者既然是单细胞数据挖掘,肯定是少不了单细胞肿瘤拷贝数分析,我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程:

  • CNS图表复现09—上皮细胞可以区分为恶性与否
  • CNS图表复现13—使用inferCNV来区分肿瘤细胞的恶性与否
  • CNS图表复现14—检查文献的inferCNV流程
  • CNS图表复现15—inferCNV流程输入数据差异大揭秘
  • CNS图表复现16—inferCNV结果解读及利用
  • CNS图表复现17—inferCNV结果解读及利用之进阶

再比如转录因子分析,细胞通讯,以及临床模型构建,我这里就不一一赘述啦,再次欢迎大家下载两个文献去对比阅读。

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

代码语言:javascript复制
We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你

0 人点赞