新冠病毒感染会引起急性呼吸窘迫综合征,研究者们为了更好地了解 COVID-19诱导的急性呼吸窘迫综合征(ARDS)的细胞状态,就对 COVID-19诱导的 ARDS 患者的外周血标本进行了单细胞 RNA 测序。详见2023年6月的文章:《Documenting the immune response in patients with COVID-19-induced acute respiratory distress syndrome》
这是一个标准的单细胞转录组数据项目,这个数据集包括:5名健康对照供体和8名 COVID-19诱导的 ARDS 患者。最后总计是 85,084个细胞,平均每个样本5,318个细胞。
这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
一般来说,拿到了单细胞表达量矩阵,就是降维聚类分群啦, 但是作者的这个分群也是有点好玩:
这个分群也是有点好玩
这是一个非常简单的降维聚类分群,但是作者没有采用人工命名,所以自动化给出来的注释结果就非常诡异,而且作者自己在各个单细胞亚群特异性高表达量小提琴图里面居然没办法显示自己标记的ILC的基因。。。。
更麻烦的是,图例里面的写的是 a total of 31 cell clusters of 5,318 cells were captured ,这个umap上面的密密麻麻的点肯定是不只是 5,318 cells 啦。(这个应该仅仅是写作方面的小瑕疵)
最严重的是这样的umap上面的零零碎碎的点,就很奇怪,我就去看了看作者是否给出来了表达量矩阵,发现是:https://ngdc.cncb.ac.cn/gsa-human/browse/HRA004752
也就是说作者确实是上传了原始单细胞转录组测序数据,但是需要申请授权, 我懒得去操作了。但是我看了看它的数据量情况,也是非常诡异啊:
数据量情况,也是非常诡异
总体上来说,确实是每个样品的R2比R1的数据量大,符合预期,但是为什么有一些样品居然还不到1GB的数据量。。。。
简直是滑天下之大稽啊。。。