Nature Methods | 用深度多任务神经网络探索单细胞数据

2021-01-30 15:14:35 浏览数 (1)

1.研究背景

在生物医学领域,分析大规模、高维度的单细胞数据,并且处理由分批实验效应和不同制备造成的数据噪声是当前的挑战;单细胞数据的大规模、高维度处理比较困难,需要考虑数据中不同程度的噪声、分批效应、人工误差、稀疏异质性。

近年来,深度学习技术在处理生物医学数据方面的应用崭露头角,并取得不错的效果,这给大规模、高维度的单细胞数据分析处理带来了希望;2019年10月,耶鲁大学Smita Krishnaswamy课题组提出多任务神经网络框架SAUCIE,在来自40个科属180个样本的1.1千万的细胞群数据集上执行批量校正(不同批次实验数据去噪)、推断(预测细胞中的两个基因之间关系)、聚类、降维可视化四个任务,相比于对应的单任务学习主流方法表现出更好的效果。

2.方法

2.1 自编码器

自编码器是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在特征空间,然后通过这种表征来重构输出。其由编码器和解码器两部分组成,编码器可以将输入压缩成潜在特征空间表示,解码器能够重构来自潜在空间表示的输入;目前,自编码器的应用主要是数据去噪、可视化两个方面;不同类型的自编码器适用于不同的任务,正则化自编码器可以使得模型具有可解释性,其不需要使用浅层的编码器和解码器以及小的编码维数来限制模型容量,而使用损失函数来鼓励模型学习其他特征,这些特征包括对噪声的鲁棒性、稀疏表征。

2.2 SAUCIE模型

耶鲁大学Smita Krishnaswamy课题组提出SAUCIE模型,该模型由三个编码层、一个嵌入层、三个解码层组成;在编码层中,三个层的神经元数目默认依次是512、216、128,都是采用learky_relu作为激活函数;中间是嵌入层,使用线性激活函数,输出二维的嵌入向量;随后是解码层,其与编码层结构对称,但其最后一层引入了正则化,输出和输入同维度的特征向量;嵌入层的输出二维特征向量可用于批量校正和可视化降维任务,解码层的输出特征向量可用于聚类和推断任务。

图1 SAUCIE模型框架

为了执行多个任务,SAUCIE模型使用单一架构(如图1),但按顺序训练与优化;首先,将原始数据输入模型进行去噪和修正批处理效果;然后将预处理好的数据再输入模型进行可视化降维和聚类;两次的训练是优化不同的目标函数;在第一次训练中,输入n*d维度矩阵X(每行是一个样本点,每列是一个特征)到编码器中提取特征,然后再由解码器对其进行重构,得到和输入维度相同的 ,达到对数据去噪和校正批处理效果。第二次训练,预处理好的数据输入编码层学习其嵌入的二维表示,其可以用作对数据可视化;接着将二维表示送入解码层,其输出和输入同维度的向量矩阵,该矩阵可以用于对数据的聚类与推断。第一次训练的损失函数为 ,其中为输入和输出的均方误差, 为正则化项, 为参数。第二次训练损失函数为 ,其中为输入和输出的均方误差,是为了学习二元表示的正则化项,是为聚类提供可解释性的正则化项, 为参数。

3.实验结果

为了评估SAUCIE模型,论文在10个公开单细胞数据集上,分别是5个CyTOF数据集:the dengue dataset、T cell development data、renal cell carcinoma data、breast tumor data、iPSC data,5个scRNA-seq数据集:mouse cortex data、retinal bipolar cells、hematopoiesis data、mouse brain data、the 10x mouse megacell demonstration;执行聚类、分批处理校正、可视化、推断四个任务,并分别和对应任务的主流方法进行对比实验。

3.1 聚类

对于聚类任务,使用人工数据集GMM、两个CyTOF数据集(Shekhar et al, Chevrier et al)、三个scRNA-seq数据集(Ziesel et al, Paul et al, and Setty et al),与minibatch kmeans、Phenograph、single-cell variational inference(scVI)三个模型进行对比,聚类结果如图2。

图2 聚类结果对比

3.2 分批处理校正

对于分批处理校正任务,使用人工数据集GMM、the dengue dataset、mouse cortex data、Chevrier et al、 Azizi et al and Setty et al数据集,与mutual nearest neighbors(MNN)、canonical correlation analysis(CCA)模型进行对比,实验结果如图3。

图3 批处理校正效果对比

3.3 可视化

对于可视化任务,使用Artificially generated trees 3, Artificially generated trees 7,Artificially generated trees 20,random tree generated with diffusion limited aggregation (DLA), intersecting half circles, GMM, scRNA-seq hematopoiesis from Paul et al, CyTOF T cell development from Setty et al, CyTOF ipsc from Zunder at al, scRNA-seq retinal bipolar cells from Shekhar et al, scRNAseq mouse cortex from Zeisel et al数据集与PCA、Monocle2 diffusion maps、UMAP、tSNE、PHATE模型进行对比,precision-recall指标结果如图4。

图4 precision-recall指标结果对比

3.4 推断

对于推断任务,使用10x mouse cortex数据集,与MAGIC、scImpute、nearest neighbors completion(NN Completion)模型进行对比,预测结果如图5。

图5 推断

输入标题

效果对比

3.5局限性

SAUCIE模型实质上一个正则自编码器,虽然具有一定的可解释性,但是对部分数据,重建输入可能不是理想的指标,并且全局优化较困难。

4 结论

论文提出了一个多任务神经网络框架SAUCIE,其可以处理聚类、分批处理校正、可视化、推断四个重要任务,在多个数据集上分别比对应任务的主流模型表现出更好效果。到目前为止,深度学习主要作为一种黑盒模型应用在生物医学中,网络内部本身缺乏可解释性;但是论文采用正则化自编码器的结构,提高了模型的可解释性,这给未来处理生物医学数据模型提供了一定的指导意义。

参考资料

https://www.nature.com/articles/s41592-019-0576-7

数据地址:

https://community.cytobank.org/cytobank/experiments/82023

代码地址:

https://github.com/KrishnaswamyLab/SAUCIE/

0 人点赞