Nat. Mach. Intell. | 可解释胶囊网络深度学习框架从单细胞RNA测序数据中识别细胞类型

2021-02-02 11:20:37 浏览数 (1)

今天给大家介绍由中国科学院大学Lifei Wang等人在《nature machine intelligence》上发表了一篇名为“An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA sequencing data”的文章。文中提出了一个使用胶囊网络(称为scCapsNet)的可解释的深度学习体系结构。胶囊结构(代表一组特定对象属性的神经元向量)捕捉层次关系。通过利用竞争性单细胞类型识别,scCapsNet模型能够进行特征选择以识别编码不同亚细胞类型的基因组。将RNA表达特征有效地整合到scCapsNet的参数矩阵中,实现了亚细胞类型识别。

1

背景

单细胞RNA测序技术(scRNA-seq)可对组织,器官或生物体内的每个异源细胞及其转录组谱进行解剖。许多研究(例如《人类细胞图谱》)已经证明了scRNA-seq的功能,能前所未有地观察细胞类型或状态。最近,scRNA-seq数据的快速积累使得可以为每个单个细胞分配一个标记,该标记可以记录细胞的类型同一性,发育阶段,空间位置或该细胞的另一个生物学特征。为了满足细胞类型标记的要求,已经开发了几种用于单细胞转录组分析的生物信息学算法。虽然,现有的基于基因表达的有监督或无监督学习方法上实现了一个稳健的、定量的细胞类别定义。但是,它们都需要进行特征选择以揭示分类器如何为某个细胞分类类别标签。差异基因表达和共表达模块的一些初步分析已尝试从具有相同细胞类型的单细胞组中提取转录组特征。不幸的是,获得的基因仍然不足以解释可以确定每个单个细胞的细胞类型标记的基因表达程序。尤其是,由于“黑匣子”机器学习模型缺乏可解释性,因此尚不清楚为什么将单个细胞标记为某种细胞类型。

深度学习神经网络作为最先进的机器学习模型,已在许多的实践中成功使用。这些网络通常具有从生物数据和图像数据中提取见解的能力。但是,传统的深度学习网络架构在决策过程中仍然缺乏透明度。胶囊结构定义为代表特定对象的一组属性的神经元向量。胶囊网络的灵活模块化架构由相互连接的模块中的胶囊组成,提供了打开深度学习黑匣子的可能性,并使我们能够解释复杂的生物网络。

在这里,作者设计了一个可解释的胶囊网络深度学习架构(scCapsNet),通过分析胶囊结构的内部权重参数使决策黑匣子变得透明。并在多个scRNA-seq数据集,如小鼠视网膜双极细胞(mRBC)数据和人外周血单核细胞(hPBMC)数据,评估了scCapsNet为单细胞转录组分析指定的值。在特征提取层的内部权重参数上使用了二维主成分分析(PCA),以正确定义一组核心基因。这些核心基因可以识别具有相同细胞类型的单个细胞的组。此外,模型中的内部权重参数有效地将单细胞表达谱嵌入每个基因的低维载体。该载体既包含信息基因表达特征,又包含由该基因知识贡献的细胞类型标记特性。因此,可以以嵌入载体的微小紧密簇的形式识别其中基因在功能上密切相关但呈现独特的转录表达模式的核心基因调控模块。

2

模型

scCapsNet模型如下图所示, 在深度学习模型scCapsNet中,为了实现单细胞类型识别,设计了由特征提取模块和胶囊网络模块组成的体系结构(图1)。与传统胶囊网络中的卷积核不同,多个并行的全连接神经网络在特征提取模块中扮演特征提取器的角色(图1)。这些神经网络通过权值矩阵和校正的线性单位(ReLU)激活函数将单细胞RNA表达谱的输入转化为“初级胶囊”载体。然后,在胶囊网络中,通过迭代动态路又将特征从主要胶囊传递到下一个“类型胶囊”向量以用于细胞类型识别(图1)。隐藏层中的耦合系数矩阵表示初级胶囊对类型胶囊的数学贡献。

Fig 1.scCapsNet的两层体系结构

3

结果

scCapsNet对单细胞类型识别

首先,作者利用10x基因组学和Drop-seq平台的hpbmc和mrbc的scRNA-seq数据,评价scCapsNet模型在单细胞类型识别中的性能。随机拆分交叉验证和预测结果表明:该模型对两个scRNA序列数据集具有很强的识别能力,准确率分别高达99%和97%。并且使用相同的scRNA-seq数据将scCapsNet模型与其他算法(如黑盒神经网络、支持向量机和随机森林)进行比较,进一步证明了scCapsNet模型的有效性(图2a)。结果表明,scCapsNet方法适用于单细胞类型识别,具有竞争性的识别精度。除了原始的hPBMC数据集外,作者还从10x基因组学平台选择了一个不同的hPBMC数据集。模型使用一个数据集进行训练,然后使用另一个数据集进行评估。扩展数据图1a中的结果显示,scCapsNet是该任务的最佳执行分类器。我们还测试了来自不同单细胞RNA-seq协议的四个人类胰腺细胞数据集的不同模型之间的分类性能。这四个数据集是Abdelaal等人使用的数据集。扩展数据图1b中的识别精度对应于四个子任务,其中四个数据集中的一个用作测试集,其他三个数据集用作训练集。结果表明,scCapsNet在新的scRNA序列数据集中具有稳定的单细胞类型识别性能。

Fig 2. scCapsNet模型中单细胞类型识别的性能。

Extended Data Fig.1. scCapsNet在不同数据集上的分类性能.

不同亚细胞类型的核心基因组在生物学功能中至关重要

其次,hpbmc中典型的细胞标记和一些先前报道的细胞类型相关基因在连接输入基因与初级胶囊的权重矩阵上的PCA图中用彩色星星标记(图3)。结果表明,scCapsNet模型一级胶囊正确提取了与不同亚细胞类型相关的已知标记基因,如B细胞的CD19和CD79A,CD14 单核细胞的CD14和S100A9,CD4 T细胞的CCR10和ID3,CD8 T细胞的CD8A和NKG7,树突状细胞的FCER1A,巨核细胞的PF4,NKG7NK细胞。

最后,作者进一步分析了scCapsNet模型定义的亚细胞型核心基因群的GO富集和反应途径。结果表明,每一组核心基因都在与相应细胞类型密切相关的特殊途径中富集(图3)。例如,与B细胞功能密切相关的GO术语和途径,如“B细胞分化”、“B细胞受体信号传导途径”、“免疫球蛋白生成”和“抗体成熟相关DNA错配修复(MMR)”等,在负责识别B细胞的基因中得到了丰富。同样,CD14 单核细胞基因中丰富的“Toll样受体信号通路”、“细菌防御反应”、“脂多糖(LPS)检测”和“巨噬细胞激活”等术语描述了CD14 单核细胞的特性。综上所述,scCapsNet中负责亚细胞类型识别的核心基因组对于不同亚细胞类型的生物学功能是必不可少的。

Fig.3 识别不同亚细胞类型的生物学功能必不可少的核心基因

4

总结

总之,scRNA-seq技术的广泛应用提高了数据质量。由于,胶囊网络的实现关键取决于大型,高质量数据集的可用性。因此,胶囊网络模型特别适合于scRNA-seq数据分析。本研究设计了一种可解释的胶囊网络架构,用于单细胞类型标记和亚细胞类型基因表达程序识别。实验结果表明,scCapsNet比其他方法具有更好的性能。

代码

https://github.com/wanglf19/ scCaps

参考资料

Wang, L., Nie, R., Yu, Z. et al. An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data. Nat Mach Intell 2, 693–703 (2020).

https://doi.org/10.1038/s42256-020-00244-4

0 人点赞