基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类

2021-02-02 10:53:08 浏览数 (1)

今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在《Nature Machine Intelligence》上发表了一篇名为“Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis”的文章。文中提出了一种迁移学习算法ItClust,这是一种监督的机器学习方法,该方法借鉴了现有的受监督细胞类型分类算法的思想,利用了从源数据中学到的特定细胞类型的基因表达信息,来帮助对新生成的目标数据进行聚类和细胞类型分类。通过使用不同的scRNA-seq数据进行全面的评估,发现ItClust能够显著的提高聚类和细胞类型分类的准确性。随着scRNA-seq在生物医学研究中的日益普及,未来希望ItClust将更好地利用大量现有的经过良好注释的scRNA-seq数据集,并使研究人员能够准确地对研究中的细胞进行聚类和注释。

1

背景

随着单细胞RNA测序(scRNA-seq)技术日渐成熟。新兴的scRNA-seq研究改变了我们对细胞生物学和人类疾病的理解。scRNA-seq分析中的重要步骤是通过聚类识别细胞群体或类型。有关细胞类型的知识可以揭示跨组织,发育阶段和生物的细胞异质性,并增进我们对健康和疾病中细胞和基因功能的了解。尽管scRNA-seq具有空前的强大功能,但高维性和高水平技术噪音仍然是鉴定细胞类型的主要障碍。目前流行的scRNA-seq聚类方法对于细胞类型密切相关或测序深度较低的数据效果表现不佳。尽管诸如SAVER和DCA之类的去噪方法可以提供更准确的基因表达估计并有助于聚类,但是这些方法不受监督,并且无法利用特定于细胞类型的基因表达信息。由于已经有大量注释良好的scRNA-seq数据集,许多最新方法开始利用这些注释良好的数据集中的信息来帮助识别新数据中的细胞类型。

源数据和目标数据提供不同数量的特定于细胞类型的基因表达信息,因此希望使用数据驱动的方法来确定每种数据类型在分析中的作用。迁移学习是一种机器学习方法,它专注于存储在解决一个问题时获得的知识并将其应用于其他但相关的问题,非常适合此目的。借这个想法,研究者开发了监督的聚类算法ItClust,它利用了从源数据中学到的特定细胞类型的基因表达信息,来帮助对新生成的目标数据进行聚类和细胞类型分类。实现自动确定目标数据集中的聚类数量,分离源数据中缺少的单元格类型。

2

模型

ItClust模型如下图所示, ItClust需要两个输入数据集,一个源数据集,其中包含带有标注良好的单元格类型标签的单元格,一个目标数据集,其中包含需要进行聚类和注释的单元格。ItClust从构建源网络开始,以从源数据中提取特定细胞类型的基因表达特征。该步骤使得能够使用从源网络估计的参数来初始化第二个网络,即目标网络。然后,使用目标数据中的单元格进一步训练初始化的目标网络,以微调参数,以便捕获目标数据中特定于细胞类型的基因表达特征。一旦微调完成后,目标网络将返回目标数据中的群集单元格。

3

结果

为了显示从标记良好的源数据中合并细胞类型特异性基因表达信息有助于在目标数据中进行聚类,作者在四个公开的人类胰岛数据集上将ItClust与两种无监督聚类算法(Louvain和DESC)以及SAVER-X(一种基于神经网络的方法)进行了比较。图2a显示了在所有四个单独的目标数据集上,Louvin,DESC和SAVER-X的ARI随着分辨率参数的变化而显着变化。相反,ItClust不需要分辨率参数的规范,即使与Louvain,DESC或SAVER-X使用的性能最佳的分辨率进行比较,也始终具有最高或接近最高的ARI。对于合并的数据集,Louvin,DESC和SAVER-X的ARI大幅下降,因为它们倾向于将来自相同细胞类型但不同数据集的细胞聚类到不同的聚类中,而ItClust保持较高的聚类准确性,并且在存在批处理时具有鲁棒性目标数据中的效果(图2b)。

接下来,作者将ItClust与监督型细胞类型分类方法进行了比较。除聚类外,ItClust还为每个聚类提供一个置信度分数,它表示目标数据中聚类与源数据中带注释的单元格类型的相似度。可以基于源数据中的相应注释,为具有高置信度得分的聚类分配单元类型名称。对于置信度得分较低的群集,它们可能代表源数据中不存在的单元类型。为了评估ItClust进行细胞类型分类的性能,首先,作者考虑了源数据和目标数据来自同一物种的情况。使用先前分析的相同的四个人类胰岛数据集作为目标数据,并使用Baron人类数据作为源数据。当分别考虑四个目标数据集的每一个时,ItClust通常获得最佳性能,产生最高或接近最高的分类准确度(图3a)。当将四个目标数据集合并为一个目标数据集时,ItClust仍达到0.95的高精度,每个簇对应一种细胞类型(图3b),这表明其对目标数据中批处理效果的鲁棒性。

最后,作者考虑了更具挑战性的情况,目标是将从一个物种学到的细胞类型知识转移到在另一个物种中生成的目标数据集。设计了一个实验,将信息从小鼠肾脏转移到人类肾脏。如图4a所示,ItClust实现了最高的细胞类型分类准确度(0.87),远高于第二好的方法Seurat 3.0(0.69)。Moana和scmap使任务失败,分别产生了0.20和0.19的低精度。值得注意的是,Seurat 3.0将超过一半的巨噬细胞(3,566个中的2408个;67.5%)错误地分类为成纤维细胞,而ItClust正确地标记了94.6%的巨噬细胞(图4b)。为了进一步验证这些结果,我们为巨噬细胞和成纤维细胞选择了标记基因,并分别为真实细胞类型和ItClust和Seurat 3.0预测的细胞类型生成了基因表达点图(图4c)。对于ItClust预测的巨噬细胞簇,表达了已知的巨噬细胞标记基因,而成纤维细胞的那些标记基因则表达较低或没有表达。相反,已知的巨噬细胞标记基因在Seurat 3.0预测的成纤维细胞中具有高表达。

4

总结

总之,本研究提出了一种采用迁移学习框架的监督性聚类算法ItClust。ItClust不仅借鉴了现有的监督单元类型分类算法的思想,而且也利用目标数据中的信息来减少对源数据质量的依赖。研究中使用来自不同物种的数据集和组织对ItClust进行了广泛的测试表明:相比其他流行的RNA-seq聚类算法,ItClust能够显著底提高聚类和细胞类型分类的准确性。

代码

https://github.com/jianhuupenn/ItClust

参考资料

Hu, J., Li, X., Hu, G. et al. Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis. Nat Mach Intell 2, 607–618 (2020).

https://doi.org/10.1038/s42256-020-00233-7

0 人点赞