今天回看到单细胞,曾老师语速好快呀,疯狂-5s中
曾老师语录:
1.基础分析永不过时,因此要多读、细读综述文献
2.19-20年是单细胞的黄金时代,主要的分析步骤这个时段已经确定,看这个阶段的文献已经可以学到很多,虽然现在新出现了大量的工具方法,但对我们数据挖掘都不太有帮助
3.
10X中每个样本都有两个结果R1和R2,R2一般质量比较差,只要分清楚来自什么样本,是正常的
Cell Ranger出结果:一个样品中3000-8000个细胞,一般median genes per cell是500-2000,mean reads per cell在5万左右是治疗比较好的,且这些结果在各个样本中比较稳定,就是比较好的
默认的表达量矩阵有三个文件,如果是以压缩包的形式,文件名必须是features.tsv.gz
如果是以解压的格式就是genes.tsv
这是read10X函数的规则
对mt和nFeature、双细胞、细胞周期的质控可做可不做,除非有清晰的标准或后期做到一些问题比如发现细胞既表达A细胞标记又表达B细胞,或者分群为低质量细胞
后续做降维聚类分群和群的注释是非常重要
ScaleData函数看计算资源是否强大,计算资源不强大用top2000,强大可以用全部基因计算
先FindNeighbors,计算亚群距离;然后FindClusters,找到聚类,再用Dimplots可以看到算法聚类结果,此时是pca结果中看到的分群关系,用umap可以看到更易读的分群结果,此时第一个步骤完成
当然如果有百万价格的计算机,pca和质控都不用做,只要直接umap就可以了
umap和tsne主要看审美喜欢哪个,其实达到的功能都是相似的
细胞群的命名是完全依赖生物学背景知识(umap里的距离,umap上相近的类群相近;看特定标志基因的表达情况),或者可以使用网页工具(ACT),但网页工具也不是万能的。名字可以检查是否分群符合道理。
展示自己包版本的函数
代码语言:R复制sessionInfo()
生信马拉松,生信技能树