生信马拉松 单细胞福利 Day-1

2024-03-06 09:49:57 浏览数 (2)

今天回看到单细胞,曾老师语速好快呀,疯狂-5s中

曾老师语录:

1.基础分析永不过时,因此要多读、细读综述文献

2.19-20年是单细胞的黄金时代,主要的分析步骤这个时段已经确定,看这个阶段的文献已经可以学到很多,虽然现在新出现了大量的工具方法,但对我们数据挖掘都不太有帮助

3.


10X中每个样本都有两个结果R1和R2,R2一般质量比较差,只要分清楚来自什么样本,是正常的

Cell Ranger出结果:一个样品中3000-8000个细胞,一般median genes per cell是500-2000,mean reads per cell在5万左右是治疗比较好的,且这些结果在各个样本中比较稳定,就是比较好的


默认的表达量矩阵有三个文件,如果是以压缩包的形式,文件名必须是features.tsv.gz

如果是以解压的格式就是genes.tsv

这是read10X函数的规则


对mt和nFeature、双细胞、细胞周期的质控可做可不做,除非有清晰的标准或后期做到一些问题比如发现细胞既表达A细胞标记又表达B细胞,或者分群为低质量细胞

后续做降维聚类分群和群的注释是非常重要

ScaleData函数看计算资源是否强大,计算资源不强大用top2000,强大可以用全部基因计算

先FindNeighbors,计算亚群距离;然后FindClusters,找到聚类,再用Dimplots可以看到算法聚类结果,此时是pca结果中看到的分群关系,用umap可以看到更易读的分群结果,此时第一个步骤完成

当然如果有百万价格的计算机,pca和质控都不用做,只要直接umap就可以了

umap和tsne主要看审美喜欢哪个,其实达到的功能都是相似的

细胞群的命名是完全依赖生物学背景知识(umap里的距离,umap上相近的类群相近;看特定标志基因的表达情况),或者可以使用网页工具(ACT),但网页工具也不是万能的。名字可以检查是否分群符合道理。


展示自己包版本的函数

代码语言:R复制
sessionInfo()

生信马拉松,生信技能树

0 人点赞