编译 | WJM
现在经常生成大型单细胞图谱,作为分析小规模研究的参考。然而,由于数据集之间的批处理效应、计算资源的有限可用性以及对原始数据的共享限制,从参考数据中学习变得复杂。德国亥姆霍兹慕尼黑中心和慕尼黑工业大学 (TUM) 的研究人员创建了一种名为“scArches”的新算法,用于在称为单细胞架构手术 (scArches) 的参考之上映射查询数据集。scArches使用转移学习和参数优化来实现高效、分散、迭代的参考构建和新数据集与现有参考的上下关系,而无需分享原始数据。利用小鼠大脑、胰腺、免疫和全生物体图谱的例子,研究人员的工作表明scArches保留了生物状态信息,同时消除了批量效应,尽管使用的参数比从头整合少四个数量级。最后,scArches在映射到健康参照物时保留了冠状病毒疾病2019(COVID-19)的疾病变异,从而能够发现疾病特定的细胞状态。scArches将通过实现参照物图谱的迭代构建、更新、共享和有效使用来促进合作项目。
该团队表示,现在经常生成大型单细胞图谱,作为分析小规模研究的参考。人类细胞图谱是世界上最大的、不断增长的单细胞参考图谱,包含跨组织、器官和发育阶段的数百万个细胞的参考图谱。这些参考资料有助于医生了解衰老、环境和疾病对细胞的影响,并最终更好地诊断和治疗患者。
然而,据该团队称,单细胞数据集可能包含测量误差,计算资源的全球可用性是有限的,并且原始数据的共享通常受到法律限制。因此,研究人员开发了 scArches,它使用转移学习和参数优化来实现高效、分散、迭代的参考构建和新数据集与现有参考的上下关系,而无需共享原始数据。
该算法的首席科学家 Mohammad Lotfollahi 解释说,“该算法不是在诊所或研究中心之间共享原始数据,而是使用迁移学习将来自单细胞基因组学的新数据集与现有参考数据进行比较,从而保护隐私和匿名性。这也使得新数据集的注释和解释变得非常容易,并极大地使单细胞参考图谱的使用民主化,”
为了测试算法,研究人员应用 scArches 在几个肺支气管样本中研究 COVID-19。他们使用单细胞转录组学将COVID-19 患者的细胞与健康参考细胞进行了比较。该算法能够将患病细胞与参考细胞分开,从而使用户能够针对轻度和重度 COVID-19 病例确定需要治疗的细胞。患者之间的生物学差异不影响映射过程的质量。
数据和代码
https://github.com/theislab/scarches-reproducibility
参考资料
Lotfollahi, M., Naghipourfar, M., Luecken, M.D. et al. Mapping single-cell data to reference atlases by transfer learning. Nat Biotechnol (2021).
https://doi.org/10.1038/s41587-021-01001-7