编译|程昭龙 审稿|王静
本文介绍由华大基因的汪建和牟峰共同通讯发表在 Nature Machine Intelligence 的研究成果:单细胞数据集规模的不断扩大,对解决扩展的规模、扩展的模态和批次效应等问题带来了计算挑战。最近提出的基因深度学习的方法,是通过推导非线性细胞嵌入来解决这些问题。对此,作者提出了基于对比学习的方法Concerto,它利用自监督的蒸馏框架来模拟多模态单细胞图谱。只需将每个细胞与其他细胞区分开来,Concerto 就可以适用于各种下游任务,如细胞类型分类、数据集成、参考映射。与当前的主流软件包不同,Concerto 的对比设置支持对所有基因进行操作以保留生物变异,它还可以灵活地推广到多组学中以获得统一的细胞表示。在模拟数据集和真实数据集上进行基准测试,实验结果表明,Concerto 的性能远优于其他方法。并且,Concerto 概括了不同的免疫反应,还发现了 COVID-19 患者的疾病特异性细胞状态。总体而言,Concerto 将通过迭代构建单细胞参考图谱并快速映射新的数据集来传输相关的细胞注释,从而促进生物医学研究。
1
简介
目前,单细胞多组学工具正在以前所未有的分辨率彻底改变组织表征,而人类细胞图谱和小鼠细胞图谱的规模已接近数百万。同时,单细胞分析还具有以下特点。首先,技术脱落或生物信号可能会带来过多的零计数。主流软件包通过特征选择和线性降维来提取可能导致信息丢失的主要变化,深度学习方法为模拟所有基因之间的非线性关系提供了一种解决方案,变分自动编码器(VAE)利用具有重构功能的编码器-解码器结构来学习低维细胞嵌入。其次,批次效应广泛存在于技术、条件和捐助者之间。从混杂效应中分离生物信号对数据集成非常重要,Seurat v.3使用相互最近邻识别跨批次的锚细胞对,但一次只允许两个批次的集成,并且随着处理细胞数量的增加,其内存消耗也呈指数增长。为了校正批次效应,Harmony迭代地使用模糊聚类和线性校正,而trVAE则是利用条件VAE。最后,query-to-reference映射可以快速解释新生成的数据集,而无需费力的从头聚类或手动注释。与严格的监督分类不同,作者将query-to-reference映射视为无监督迁移学习问题,从学习到的查询嵌入中推导出基于投票的注释。
对比学习最近在计算机视觉领域取得了巨大成功,受其在建模未标记数据方面的启发,作者认为可通过自监督的方式区分每个细胞来获得高质量的表示。蒸馏方案也被用在非对称神经网络中,从监督环境中的模型压缩和在线共蒸馏发展到半监督环境中的自训练,进行自监督蒸馏以获得更好的表示。
因此,作者提出了一个用于单细胞分析的自蒸馏对比学习框架 Concerto。通过对真实数据集和模拟数据集进行基准测试,学习的嵌入可以针对各种下游需求进行微调,包括自动细胞类型分类、聚类、批次效应校正的数据集成以及query-to-reference映射。Concerto 可以灵活地处理多组学数据集,并在每个任务中优于其他方法。此外,作者利用Concerto 根据包含健康和感染样本的综合参考图谱查询 COVID-19 免疫细胞数据集,概括了具有不同疾病状态的患者的几种不同免疫特征。实验结果表明,Concerto 是一个强大、准确、可扩展的表示学习框架,可用于 1000 万个细胞规模的单细胞多模态分析。
2
结果
Concerto结构概述
Concerto 利用配置为非对称师生架构的自蒸馏对比学习框架(图 1a),非对称设计注入了不平衡的模型复杂性,即较大的教师网络通过注意力机制将基因嵌入聚合到细胞嵌入中,而较小的学生网络则通过密集操作将离散输入转换为细胞嵌入。通过为每个未标记的细胞定义实例区分前置任务,Concerto通过最大化每个细胞的师生视图之间的一致性来学习语义不变嵌入。在输出层之前添加一个随机的dropout掩码,以便在SimCSE的句子处理方案的推断下,在模型级别生成最小的数据增强。同时,通过添加一个特定域的批处理规范化层以校正批次效应。在处理多组学数据集时,对每个模态进行简单的元素求和可以生成统一的细胞嵌入(图1b)。通过投射到单位超球面空间上,Concerto将同一细胞的师生视图作为正对汇集在一起,同时分开同批次内的其他细胞,最终将细胞区分开来。学习到的嵌入可以针对各种下游任务进行微调,包括自动细胞类型分类、聚类、批次效应校正的数据集成以及query-to-reference映射(图1c)。
图1 Concerto结构概述
Concerto有助于自动细胞类型分类并发现跨组织的新细胞类型
为了证明对比学习的嵌入满足严格的细胞分类,作者使用现有的注释作为训练标签来在 Concerto 上实现监督微调。通过使用人类外周血单核细胞数据集(PBMC45k, n = 31021)来对比不同的分类器,包括基于似然的SciBet、基于神经网络的Cell BLAST、基于相关性的SingleR、基于支持向量机的Moana和元学习方法MARS。Concerto分为两步:预训练和微调,而其他方法则是端到端训练。作者还通过丢弃对比损失并以完全监督的方式进行训练,从而实现了 Concerto(Concerto-E2E)的端到端版本。实验结果表明,Concerto 几乎在所有的train-test分割上都远优于其他方法。
如果测试集包含训练样本中不存在的细胞类型,好的分类器应该将非上述(NOTA)细胞标记为拒绝预测选项。作者将PBMC CITE-seq数据集在三个水平上注释,并从训练集中去除不同的T细胞粒度以评估NOTA方法,图2显示Concerto可以清晰地分离出1级和2级掩蔽的验证集和测试集的置信曲线。即使在最具挑战性的3级情景中,Concerto也能得到与验证曲线部分重叠的双峰曲线。
图2 Concerto和SciBet对比实验
对于跨组织注释,作者采用与MARS类似的实验设计,将一个组织作为未注释的测试集,并在所有其他组织上训练Concerto。通过添加域适应模块,Concerto在22个保留组织上实现了优于MARS的调整兰德指数(ARI)。与 MARS 类似,Concerto 可以有效地进行知识转移以发现跨组织的新细胞类型。
Concerto可在多模态数据集上实现无监督聚类
一项新的单细胞研究通常从无监督聚类开始,然而,离散的集群可能会忽略细胞状态之间的平滑过渡。Cell-ID 可以以无聚类的方式提取每个细胞的基因特征。为此,作者评估了 Concerto 嵌入在从头聚类中的效用,并表明 Concerto 还可以在单细胞分辨率下提取具有生物学意义的特征。通过在PBMC45k(n=11377个细胞)选择具有最小批次效应的子集,作者将 Concerto 的表示与 Seurat 在不同聚类算法上的共享最近邻进行比较。实验证明,Concerto嵌入上的Leiden聚类(Concerto Leiden)在五种分辨率下显著优于其他方法(图3a),并且,Concerto可以很好地将聚类分配与手动注释对齐(图3b)。
图3 对比 Concerto嵌入和其他方法的聚类性能
为了验证纳入转录组以外的其他组能够更精确地定义细胞特性,作者使用RNA、蛋白质或两者同时作为输入来实现Concerto,并将学习到的嵌入通过分层注释进行可视化(图4)。Concerto 可以简单地通过对每个模态进行元素求和来获得统一的视图,从而解决任意数量的扩展模态。Concerto 的教师模块使用注意力机制来聚合基因嵌入。首先假设注意力权重可以通过复制细胞类型建立的分子特征来提供某些模型的可解释性。实验结果证明了用于定义细胞身份的关键特征的归一化注意力贡献,成功地恢复了一些典型细胞类型的规范模态特异性标记。
图4 Concerto学习嵌入的可视化
Concerto通过消除批次效应实现数据集成
面对将不同来源合并到参考图谱时需要校正批次效应的问题,作者在多供体人体胰腺 (HP) 胰岛数据集(8批次,n = 14890 个细胞)上对 Concerto 的数据集成性能进行了基准测试。通过设计六种方案来评估输入基因数量的影响,观察到Concerto在六种情况下实现了远高于其他方法的平均轮廓宽度(ASW),这表明Concerto可以更好的捕获生物变异。同时,Concerto的对比学习目标不受融合不同亚群的影响,并能保留生物变异以构建高质量参考。
Concerto实现高精度的query-to-reference映射
我们进一步评估了 Concerto 将查询细胞映射到协调的参考嵌入的能力。与严格的细胞分类不同,查询到参考映射仅在推理过程中使用细胞类型标签。特别地,作者首先使用预训练的模型权重计算查询嵌入,将查询细胞定位在它们最相似的参考细胞附近,并使用 k 最近邻(通常 k = 5)投票分类器将参考注释转移到查询。通过设计两个实验:跨技术映射和跨物种映射,结果表明,Concerto在两个实验中均达到最高的平均 ACC(图5a)。并且,混淆矩阵(图 5b)表明Concerto 可以准确地跨技术和跨物种转移标签。然后,作者还设计了一项研究来预测看未知的细胞类型,并评估整合所有基因是否对此有益。通过从PBMC160k 中分配一个样本 (P3) 作为查询,并使用其他七个样本来构建参考。该实验证明Concerto可以沿着具有生物学意义的连续体投射未知的细胞亚型,Concerto还可以推断查询细胞中不可测量的模态。
图5 Concerto和其他方法进行query-to-reference
映射的性能对比
Concerto可以扩展到1000万细胞的图谱构建和参考映射
对于可扩展性分析,作者模拟虚拟参考并针对每个参考映射等量的查询细胞。通过将整个任务分成多个处理批次,对比学习自然是可并行化的并且易于扩展到超大图谱。Concerto可以有效扩展以构建数百万个细胞参考,从而在几分钟内实现快速映射。Concerto还可以在仅使用CPU的典型计算机上工作,需要1.1小时构建100000个细胞的参考,并在30分钟内查询相同数量的细胞。实验表明Concerto是最具可扩展性的,不需要PCA或缩放,可以对所有基因进行操作并很好地支持多模态集成。
映射COVID-19免疫细胞与疾病参考图谱
作者进一步使用Concerto 将最近发布的 COVID-19 PBMC 数据集投影到全面的COVID-19参考中。然后在不进行微调的情况下,即可将查询集投影到其上(图6a)。COVID-19参考包含与查询中类似的疾病相关细胞状态,因此,直接的模型推理足以进行快速映射。对于所有注释的CD8 T细胞,Concerto可以区分不同疾病状态(健康对照,轻度和重度)的原始、增殖、记忆和效应状态的不同组成,并获得一致的状态特异性特征(图6b、c)。
图6 Concerto保留COVID-19患者的差异免疫应答
总体而言,Concerto 成功地分离了病理状态,保留了细微的状态特异性变异,并识别了不同的免疫特征。无论实施直接推理还是无监督微调,都取决于参考的多样性和查询的相关性,更全面的参考通常有利于映射性能。Concerto 可以通过迭代更新参考来覆盖更多样化的样本,从而形成一个持续学习的框架。
3
总结
假设每个细胞不同,Concerto通过区分每个细胞与其他细胞来学习高质量的细胞表示。基于将不同的理论基础的方法与基于PCA或VAE的方法进行比较,对比学习的嵌入非常适合于保存生物学细微差别。Concerto支持对所有基因进行操作,这对于在基于映射的任务中确保查询和参考之间的特征重叠尤为重要。Concerto的非对称自蒸馏方案在从教师网络的注意力操作中学习语义丰富的表示和从学生网络密集输出中获得良好的泛化性之间取得了平衡。通过解释注意力权重,Concerto可以在单细胞分辨率下自动提取一些典型的分子特征,并确定每种模态对定义细胞身份的相对贡献。query-to-reference映射已成为单细胞分析中的一种新范式。Concerto的对比设置很容易并行化,并根据参考多样性或相关性支持直接推理或无监督微调。通过简单的元素总和,Concerto可以有效地支持多组学集成。当大规模疾病图谱可用时,Concerto在转化研究中也显示出巨大的潜力。
参考资料
Yang, M., Yang, Y., Xie, C. et al. Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale. Nat Mach Intell 4, 696–709 (2022).
https://doi.org/10.1038/s42256-022-00518-z
数据链接:
https://singlecell.broadinstitute.org/single_cell?type=study&page=1
https://zenodo.org/record/3572422#.YxL6fnZByUk
https://figshare.com/articles/dataset/Tabula_Muris_Senis_Data_Objects/12654728/1
代码链接:
https://github.com/melobio/Concerto-reproducibility