作者 | 戴迟迟 编辑 | 李仲深
一、介绍
今天给大家介绍山东大学魏乐义教授与日本东京大学中井谦太教授合作发表在Nucleic Acids Research上的一篇文章 “scIMC: a platform for benchmarking comparison and visualization analysis of scRNA-seq data imputation methods”。目前在单细胞RNA测序(scRNA-seq)领域最主要的挑战是技术缺陷导致的“dropout”事件,其极大影响了下游任务分析,因此迫切需要有效的方法优化单细胞RNA测序数据。本文从以下四个方面对现有scRNA-seq数据插补方法进行系统的研究与比较:(1)恢复真实基因表达分布,(2)细胞聚类分析,(3)基因差异性表达分析,(4)重建细胞轨迹。研究表明,基于深度学习的方法通常比基于模型的方法表现出更好的整体性能,显示出深度学习在scRNA-seq数据插补方面的强大能力。此外,针对帮助没有计算机背景的研究人员方便实现插补方法以及结果的可视化分析,本文研究开发了在线分析平台scIMC,集成了多种现有方法以及常见的下游分析任务,能够方便用户针对不同的数据选择合适的数据插补方法进行分析与比较。
二、实验结果
首先,本文对不同方法在恢复基因表达方面的能力进行比较分析。本文使用Splatter模拟了6个包含真实计数矩阵(无“dropouts”)的不同零占比的模拟数据集来比较插补方法恢复真实基因表达的能力。利用常用的降维可视化工具UMAP可视化零占比为0.42的模拟数据集(图1)。得到的结果显示,真实计数数据(无“dropout”数据)的结果有4个边界清晰的细胞亚群,其他结果均受到“dropout”的影响。而无论数据中零占比有多高,DCA的表现都优于其他方法,可以区分出4个清晰的聚类。而当数据的零占比降低时,DeepImpute和scIGANs能够更加准确地恢复基因的表达。此外,本文使用均方根误差(RMSE)和Peason相关系数(PCC)来进一步评估性能,结果显示DCA和DeepImpute在保持数据真实表达分布方面的性能明显优于其他方法。进一步分析可知,它们都是基于深度学习的方法,这显示出深度学习算法在恢复真实基因表达方面的能力。
图1 现有方法在零占比为0.42的模拟数据集上的基因表达分布UMAP图
图2 不同方法插补数据的PCCs
其次,为了比较插补方法在细胞聚类方面的性能,本文利用t-SNE对原始计数矩阵和通过插补方法得到的矩阵进行降维处理,然后利用k-means算法对细胞进行聚类处理,采用4个指标(NMI、ARI、Si score和Purity)对插补方法的聚类性能进行评价和比较(图3)。从图中可以看出,DCA的四个指标均优于其他方法。此外,DrImpute、DeepImpute和scIGANs在零占比为0.42的数据集中也获得了优异的表现。由于不同的预处理方法可能会影响细胞聚类的性能,所以本文将t-SNE替换为UMAP算法进行降维,并进行聚类分析,得到了与使用t-SNE进行降维时相似的结果。具体结果可以参考原文。
图3 在零占比为0.42的数据集上11种插补方法在tSNE k-means聚类方面的性能评估
第三,基因差异性表达分析是一种常见的下游分析实验,是对基因表达水平取决于某些变量的分析。本文将批量RNA测序数据预测的差异性表达结果作为黄金标准,研究了不同插补方法在人类胚胎干细胞(ESCs)数据集上插补后进行基因差异性表达分析的性能。本文在ESCs数据集上运行edgeR,然后利用火山图来对结果数据进行可视化(图4)。
图4 基因差异性表达检测在不同插补方法处理后数据上的表现
现有方法的评估结果如图5所示,从图中可以看出,scGNN的四个指标均超越了其他方法,表现出了优异的性能。DrImpute,scTSSR,scNPF以及scIGANs也表现良好,提高了检测差异表达基因的性能。综上所述,scGNN、DrImpute和scTSSR在鉴定差异表达基因方面具有较好的性能。
图5 在基因差异性表达分析中不同插补方法的性能评价
最后,本文在不同细胞时期的scRNA-seq数据集上运行现有方法,并使用Monocle3和TSCAN来重建细胞轨迹。POS和KOR得分被用来衡量真实时间标签和重建的伪时间标签之间的相关性强弱。表1列出了不同插补方法的POSs和KORs。由表1可以看出,不经过预处理步骤的情况下经过scImpute插补后得到的数据推断出的细胞轨迹与真实的细胞排序对应度最高,其中POS得分为0.928,KOR得分为0.743,这也表明在不经过预处理步骤的情况下,TSCAN在其上表现得更好。结果表明,scImpute更适合用于探索scRNA-seq数据中的细胞轨迹。
表1 现有方法在重建细胞分化路径方面的性能评价
三、scIMC网站
本文建立了一个名为scIMC(single-cell Imputation Methods Comparison platform)的web服务器,以帮助读者执行不同的插补方法和下游分析实验(图6),可以通过网址https://server.wei-group.net/scIMC/免费访问。考虑到高昂的计算成本,本服务器最多只能运行1GB的数据。服务器的主要功能模块包括:数据预处理、基因表达矩阵插补和下游分析实验(恢复基因表达、细胞聚类、差异性表达基因检测、细胞轨迹重建)。欢迎感兴趣的读者访问scIMC,更多详细的用户指南被提供在网站中。
图6 scIMC工作流程
四、总结
本文从四个方面对用于优化单细胞RNA测序数据的插补方法进行系统的研究与比较。发现了不同方法在不同的下游分析实验中的优劣。如果想要为自己特定的数据集选择更加合适的插补方法,推荐读者使用文中提出的网站scIMC。除上述实验之外,作者在原文中还进行了一些其他的描述并在补充材料中提供了许多其他的实验数据,感兴趣的读者可以下载原文来进行阅读。
论文链接
https://academic.oup.com/nar/article/50/9/4877/6582166
参考文献
ChichiDai, Yi Jiang, Chenglin Yin, Ran Su, Xiangxiang Zeng, Quan Zou, Kenta Nakai*,Leyi Wei*. scIMC: a platform for benchmarking comparison and visualization analysis of scRNA-seq data imputation methods. Nucleic Acids Research, 2022.DOI:10.1093/nar/gkac317.