Nat. Methods | MARS: 跨异构单细胞实验发现新型细胞类型

2021-02-02 11:04:02 浏览数 (1)

今天给大家介绍由美国斯坦福大学计算机科学系Jure Leskoveck课题组在《Nature methods》上发表了一篇名为“MARS: discovering novel cell types across heterogeneous single-cell experiments”的文章。文中提出了用于识别和注释已知的以及新的细胞类型的元学习方法MARS,MARS通过跨多个数据集传输潜在细胞表示,克服了细胞类型的异质性。使用深度学习来学习细胞嵌入功能以及细胞嵌入空间中的一组地标。该方法具有发现以前从未见过的细胞类型并注释尚未注释的实验的独特能力。将MARS应用于大型小鼠细胞图集,并展示了其准确识别以前从未见过的细胞类型的能力。此外,MARS通过概率性地在嵌入空间中定义细胞类型,自动为新的细胞类型生成可解释的名称。

1

背景

高通量的单细胞转录谱分析使我们在了解疾病和发育的细胞机制方面取得了显著进展。细胞图谱数据集,包括小鼠细胞图谱和人类细胞图谱,系统地测量生物体内多个部位的单个细胞在生长发育过程中的几个时间点的转录组。这些数据集有助于发现新的细胞类型和细胞转录状态。然而,为了帮助识别新的单元类型,目前存在很大的差距,因为这需要以下技术:(1)协调异构和时变的数据集;(2)学习数据集不变的细胞表示;(3)使用学习的表示来确定被测细胞是否表示以前未被特征化的细胞类型和细胞状态。这样的技术将具有揭示新型细胞类型的能力,能够对作为这些细胞类型及其细胞活性基础的生物学进行研究,从而在扩展单细胞计算工具箱中形成至关重要的工具。

现有的单细胞工具会训练深度神经网络模型,以学习如何将细胞嵌入向量空间。但不能将细胞分类为训练数据中不存在的新细胞类型。因此,在本文中作者提出了一种用于在异构且随时间变化的单细胞数据集中注释已知/可见以及新/未知细胞类型的方法MARS。MARS使用元学习,这是机器学习的一种范式,专注于有效使用有限的注释。作者将MARS应用于Tabula Muris和Tabula Muris Senis的细胞图集。发现MARS成功地在各种组织之间转移了知识,并排列了相同的细胞类型,即使它们来自不同的组织。此外,作者发现MARS在小鼠中学习了有意义的衰老特定细胞类型的特征。实验结果表明,MARS大大优于当前的细胞类型分类技术。MARS能够准确地识别出训练期间从未见过的细胞类型,并可能为它们推荐可解释的名称。

2

模型

MARS模型如下图所示, 给定一个元数据集作为输入,MARS将学习一组细胞界标和一个非线性嵌入函数。嵌入函数将每个细胞的高维表达谱投影到低维向量,直接捕获细胞类型的同一性(图1a)细胞类型的界标被定义为细胞类型的代表,并通过注释和未注释的实验学习。嵌入功能是一个深层神经网络,可将细胞映射到嵌入空间。定义嵌入空间,以使细胞嵌入接近其细胞类型界标的位置。嵌入功能在元数据集中的所有实验之间共享,这使MARS能够泛化为未注释的实验并捕获注释和未注释的实验中细胞类型的相似性。

在数学上,MARS使用正则化的形式通过深度自动编码器对神经网络进行预训练,从而最大程度地减少了数据重构错误。预训练步骤用作参数空间的先验,对于将其推广到未注释的数据集很有用。使用预先训练的网络作为初始化,MARS然后学习将所有细胞映射到共享嵌入空间,以使相似的细胞彼此靠近,而相异的细胞距离很远。配备了细胞类型地标的概念后,作者设计了一个目标函数,旨在学习一种表示细胞靠近其相应地标的表示方法。目标函数由三部分组成(图1b):(1)在带注释的实验中,细胞嵌入和真实的细胞类型地标之间的距离最小。(2)在未注释的实验中,细胞嵌入和最近的细胞类型界标之间的距离最小,并且(3)每个实验中的细胞类型界标之间的距离最大。基本原理是鼓励来自相同细胞类型的细胞具有相似的表示,而来自不同细胞类型的细胞的表示相距甚远。MARS不会对发现的细胞类型的半径施加任何限制,因此细胞类型可以形成簇,以反映其与其他细胞类型的转录相似性。

3

结果

MARS识别特定于细胞类型的衰老特征

首先,作者评估了Tabus Muris Senis数据集上MARS推断细胞类型轨迹的能力,涵盖了小鼠的寿命。特别地,分析了来自不同时间点的相同细胞类型是否紧密嵌入(即对齐)在嵌入空间中。使用来自3个月,18个月和24个月大的小鼠的大脑脂肪组织(BAT)数据作为注释实验。实验发现,MARS可以将除自然杀伤(NK)细胞集以外的所有细胞类型对齐。NK细胞在每个时间点都会改变位置(图1c),表示存在转录变化。为了确认由MARS检测到的NK细胞的运动是有意义的,作者进一步分析了三个时间点上差异表达基因的基因表达差异。NK细胞群体确实显示出比其他细胞类型更高的变异性。此外,NK细胞群体在三个时间点上共享6%的差异表达基因,而棕色脂肪组织中其他细胞类型上的平均26.8%共享基因的平均值,证实了MARS掌握的表征捕获了衰老的NK细胞的转录变化。此外,这一发现已被充分表征的实验,提示NK细胞的细胞功能在衰老小鼠受损并能降低癌症和病原微生物的抗性。

MARS发现新的细胞类型和亚型

其次,作者还证明了MARS发现了新颖的细胞亚型。特别是,分析了MARS发现的细胞类型与Tabula Muris注释不同的乳腺组织。MARS将被Tabula Muris标注为腔上皮细胞的细胞分为两个不同的簇(图 2a)。为了检查MARS检测到的两个簇中的腔上皮细胞是否确实存在差异,作者进行了置换测试,将样本分布中富含差异表达基因的基因的Jaccard相似性的样本分布与MARS检测到的簇的Jaccard相似性进行了比较(方法)。结果证实,MARS检测到的簇中的腔上皮细胞差异显着(P<10-3;图2b),表明MARS发现了腔上皮细胞的亚型。

MARS可以命名新的细胞类型

最后,最后,作者展示了MARS为可发现的细胞群分配可解释名称的能力。MARS依靠带注释的实验中的细胞类型界标,根据其在低维嵌入空间中的区域来概率地定义细胞类型。在以目标未注释细胞类型为中心的高斯分布下概率与地标的概率密度成正比。为了证明方法的有效性,作者分析了肢体肌肉组织中具有十个以上细胞的细胞类型是否正确分配。的确,MARS准确地识别出卫星肌肉细胞和内皮细胞的概率为100%,巨噬细胞的概率超过87%,而B细胞的概率超过45%(图2e)。乍一看,MARS似乎以高可信度将它们分配给了基质细胞,从而将间充质干细胞(MSC)误分类。然而,MSC是粘附的基质细胞。此外,以37.2%的概率,将MSC分配给成纤维细胞类型,使用形态学和细胞表面标记物与MSC没有区别。因此,MARS嵌入空间中的距离也可以用来推断细胞类型之间的相似性。即使没有针对批处理效应对数据集进行校正,也可以使用MARS来发现新的细胞类型。但是,该命名方法依赖于整个实验之间的距离。因此,如果存在跨实验的批处理效果,则需要首先使用现有的批处理校正方法对数据集进行校正,以便使用命名方法返回有意义的结果。

4

总结

总之,本研究提出了用于识别和注释已知的以及新的细胞类型的元学习方法MARS,MASRS相比之前的单细胞数据分析工具,具有独特的能力,可以在可能没有任何共同细胞类型的异质实验之间转移细胞嵌入的知识。此外,MARS可以通过使用学习到的细胞类型地标来识别新的细胞类型,通过概率性地在注释的地标附近分配细胞类型,为注释发现的细胞类型提供了一个框架。实验结果表明,MARS可以大大减轻事后对细胞类型的手动分析。

代码

https://github.com/snap-stanford/mars

参考资料

Brbić, M., Zitnik, M., Wang, S. et al. MARS: discovering novel cell types across heterogeneous single-cell experiments. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00979-3

0 人点赞