本来是想搜索GBM单细胞数据,下载表达矩阵后完成群主(生信技能树创始人jimmy)的作业:为什么癌症病人据肿瘤单细胞水平的异质性但是细胞系没有 做成文章里面的热图。但是却搜索到了一个纯粹的单细胞数据挖掘文章,来自于哈医大生信中心,发表在Mol Oncol. 2019 Dec;题目是:Single-cell RNA-seq reveals the invasive trajectory and molecular cascades underlying glioblastoma progression.
最开始也是摆出单细胞具有肿瘤病人异质性这个问题
作者下载了Patel et al. (2014)发表的GSE57872).在里面的 576 cells 自己走了一遍CNV分析,拿到了350 tumor cells.进行聚类,结果如下:
就是对2014的GMB单细胞转录组数据:
- (A) T-SNE plot of tumor cells showing six clusters, in which patient effects have been regressed out.
- (B) T-SNE plot showing the distribution of the patients matching (A).
- (C) The cell numbers of each cluster in each patient.
这个虽然不是群主(生信技能树创始人jimmy)给大家的作业,不过我觉得这个可能更适合作为作业了。
既然有分群,就可以每个分群去看标记基因,差异基因,GO/KEGG数据库注释咯。基本的分析方法,就是表达芯片的公共数据库挖掘系列推文里面介绍的 ;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
值得注意的是单细胞转录组的差异分析还是略微有一点不同的。
然后把不同细胞群分成不同的拟时序状态
也是群主(生信技能树创始人jimmy)给大家介绍的教程里面的, 见拟时序分析后细胞类型按照不同state进行区分
其实大家都想学单细胞转录组数据挖掘,但是呢,并没有好的线下课程可以帮助大家,因为背后的付出太大了。看起来这篇文章就介绍了两个图,就需要把群主视频全部看完,自己走过几次单细胞转录组数据分析后才能看懂。
最后是多个脑瘤单细胞转录组数据验证
包括
- Darmanis et al. (2017) 发表的GSE84465)
- Tirosh et al. (2016b)发表的GSE70630)
- Darmanis et al. (2015),发表的GSE67835)
还加上一些网络图,转录因子调控图,这篇文章就OK了。
如果能找到这个文章的一作来开课讲解自己是如何完成这篇数据挖掘文章 就最好了,但是世界上怎么会有那么多如果呢,你各种因素限制,最好只能够去一些线下培训班而已。反正你也要去,还不如去这个:单细胞测序数据挖掘和课题设计可以这样学 聊胜于无,但是总比没有好!