前言
生信技能树公众号之前已经介绍了很多有关细胞注释的工具或软件了,如:ToppCell Atlas:单细胞分析中针对细胞类型的富集分析,但是其中很多都是偏向于对人来源的细胞进行注释。然而,对于搞基础研究的科研工作者来说,小鼠是进行功能机制研究中最常用的动物模型。因此,在单细胞测序产生的数据中,除了最多的人来源的研究外,紧接着就是小鼠的数据了。那么分析小鼠的单细胞数据时会有一个巨大的挑战,就是如何准确的对小鼠各种细胞类型进行命名。
今天小编就来给大家介绍一款专门针对小鼠单细胞数据进行细胞注释的网站:CellKb Immune,不同于很多其它R包或者工具,只能对那些会数据分析的人群,这个网站对所有科研人员都非常友好,只需要点点点就能对数据类型进行注释。对应的网址在:https://www.cellkb.com/immune。对应的文章发表在预印刊bioRxiv平台上,篇名为:CellKb Immune: a manually curated database of mouse hematopoietic marker gene sets optimized for rapid cell type identification,使用这个软件的小伙伴要记得引用哦。
主要内容
首先,需要强调的是CellKb Immune所有用于细胞注释的marker genes都是作者通过搜集以发表的研究手动整理的,其中包括各种免疫功能调节相关的文章。为了保证marker genes来源的可靠性,所有被纳入进CellKb Immune基因必须满足以下标准:
1)Deposition of raw data in public databases; 2)Availability of data for download; 3)Description of experimental method used; 4)Availability of number of cells studied; 5)Description of computational methods used to normalize, filter and cluster cell types, along with identification of cluster-specific genes; 6)Availability of associated values (e.g. average expression, fold change, statistical significance); 7)Availability of sufficient number of valid gene identifiers in the marker gene set as mapped to the latest version of the Ensembl database。
CellKb Immune 网站的构建流程
此外,和其它同类工具只考虑基因的基础上,CellKb Immune还会将高表达基因的差异倍数和p值纳入综合评分中。也就是说,用户给出的查询基因集将与数据库中的每个标记基因集都进行比较,并根据查询和细胞类型之间的共同基因的数量、它们的级别、它们的级别差异和细胞类型中显著基因的总数计算匹配得分,这会使共享高排序基因的细胞类型被分配到更高的匹配分数。匹配分数还考虑了查询和各种细胞类型之间基因列表大小的差异,这样具有较少有效基因的细胞类型就不会被忽略。
CellKb Immune 网站的操作流程
总的来说,CellKb Immune解决了现有单细胞参考数据库中的以下几个问题:
1)很多数据库都是重新分析了公共数据,然后根据自己的理解对细胞进行注释,而忽略了原始研究中作者自己的细胞定义。作者自定义的标记基因集在文献中具有重要的参考意义,因为细胞簇形式的细胞类型往往是作者根据生物学信息选择的,因此CellKb Immune会捕获和聚合这些生物信息;
2)CellKb Immune提供深度注释,以广泛的细胞类型信息和描述作为参考,根据标记基因的显著性对输入的基因集进行排名,而且会考虑与基因表达相关的差异变化和显著性p值;
3)CellKb Immune提供了一个基于web的界面,在给定用户基因列表的公开数据集中查找匹配的细胞类型,独立于实验平台、分析方法和不足的标记基因集。因此,用户不需要花费时间以编程方式集成数据和搜索分析方法;
4)与其他需要存在相关表达或差异变化值以及所有靶细胞类型中相同数量的基因的方法不同,CellKb Immune使用的搜索方法可以在不存在表达折叠变化的情况下,独立于实验平台和预处理方法,搜索不同大小的标记基因集。
展望
想必分析过单细胞数据的小伙伴都会觉得,在整个分析流程中很难也是很重要的一步就是细胞类型的注释,这一步一旦出错,后面再好的分析结果都是白搭,小编自己也有很多次重新推翻再分析的经历。因此,最开始就得到一个准确的细胞注释结果是非常重要的。
事实上,和人的单细胞数据相比,对小鼠的细胞注释更加有挑战性,特别是对在不同药物或者处理后得到的实验数据。那是因为在伦理的限制下,我们无法直接在人身上做功能机制的探索性试验,因此人的单细胞数据无怪乎各种生理条件下,各种器官或者组织细胞,更进一步也不过是各种疾病下的细胞组成;而在小鼠数据中,除了上面的情况下,不同实验条件下是更加复杂的,很多都是在生理病理下都不会遇到的情况。考虑到这种情况,CellKb Immune就是整合了目前所有对小鼠进行单细胞测序研究的实验数据,并且手动将这些数据进行整理,挑选出最具有代表性的基因,因此是十分可靠的。
总之,CellKb Immune提供了一个易于使用的参考数据库,具有快速可靠的方法,可以一站式解决小鼠单细胞数据分析中各种免疫细胞类型的注释。