作者 | 周运来
男,
一个长大了才会遇到的帅哥,
稳健,潇洒,大方,靠谱。
一段生信缘,一棵技能树。
生信技能树核心成员,单细胞天地特约撰稿人,简书创作者,单细胞数据科学家。
The evolving concept of cell identity in the single cell era
这不是最好的时代,也不是最坏的时代,这里是单细胞时代。灵活的单细胞系统,高效的组织解离液,开源的数据分析工具,端到端的单细胞解决方案是未来发展的趋势。这里最主要的是开放灵活的单细胞系统,有了这个系统我们就可以自主地设计反应体系,来从不同纬度捕获单个细胞的信息。
随着单细胞技术的广泛应用,我们正在从对细胞身份(cell identity)的模糊定义转向建立定量的、高分辨率的细胞全景图谱。然而,精确定义细胞状态仍然是一个挑战,导致围绕这一概念展开新一轮的争论。在这里,我们提出三个核心概念,来刻画细胞身份,它们是:
- 表型(phenotype)
- 谱系(lineage )
- 状态(state)
新兴的单细胞技术,使得我们逐渐量化细胞内在属性,在这里我们概述这些技术将如何使构建的高分辨率的细胞身份景观以及可能揭示其潜在的分子调控机制,当然也提供了对细胞身份新的理解和操纵细胞命运(cell fate)的机会。
Deng, Y., et al. (2019). Single-Cell Omics Analyses Enabled by Microchip Technologies. Annual Review of Biomedical Engineering.
几个世纪以来,生物学家一直试图解构生物系统的复杂性,方法是将它们分解为其组成部分——细胞——并根据它们的身份将细胞分类,建立一种细胞分类法,进而形成细胞生物学。然而细胞身份或细胞类型( cell type)的概念仍然没有明确的定义。在历史上,细胞是根据形态、位置、个体发生和与其他细胞类型的相互作用等特征来分类的。随着时间的推移,新的测定方法被开发出来,用以测量细胞的生理功能,这些与分子生物学的进步相结合,使得基因和蛋白质表达的量化成为可能,如你所见,也使得更细微的细胞类型分类成为可能。
从根本上说,目前还没有一种通用的方法来准确地定义细胞的身份。在细胞身份完全未知的生物体(如稀有物种)中,这显然阻碍了细胞类型分类。因此,尽管一些细胞图谱建设的努力正在进行中,这些努力重新点燃了关于如何有效和准确地组织细胞身份的争论,揭示了在这个主题上的许多不同观点。在这里,我们利用新的和已建立的概念来合成一个由三个支柱组成的框架(图2),我们认为这是细胞同一性概念的核心:
- 1)表型(和功能)——是细胞同一性定义的一个中心支柱,它定义了广泛的物理、分子和功能特征,这些特征可以被捕获和分析,从而实现系统和无偏见的细胞类型分类。同一生物体内细胞类型之间的本质区别是:基因的选择性表达,也就是我们拿来定义细胞类型的marker gene.
- )谱系——为了充分描述细胞的特性,了解不同细胞类型之间的谱系关系和它们的起源也是很有价值的。追踪细胞身份的发育起源可以建立一个细胞分类,使相似的细胞类型被归类在一起,可能有助于鉴定新的细胞类型。如处在轨迹推断中两个亚群之间的细胞,可以推断是不是中间态细胞。
- 3)状态-细胞身份稳定,然而,在不同的刺激下,相同的细胞类型可以表现出一系列不同的表型(状态)。通过对与给定细胞类型关联的细胞状态进行管理,可以将标识与状态区分开来。
此外,绘制细胞状态景观(Single Cell Landscape)为识别细胞何时走出正常生理界限进入病理状态奠定了基础。综合考虑这三个支柱可以构建高分辨率、动态的细胞标识景观,潜在地为理解和操纵细胞命运提供了新的机会。
表型和功能:细胞特征的高分辨率快照,以表征身份
细胞表型的特性是定义细胞身份的核心,代表了生物学家长期关注的焦点。17世纪,在光学显微镜的帮助下,Robert Hooke最初描述了组成软木样品的细胞。一百年后,第一个使用洋红、银、苏木精和伊红的组织学染色出现了,因此可以进行相对详细的细胞学观察。大约在这个时候,拉蒙·卡哈尔使用高尔基银染色法来描述神经元,为神经系统是由单个细胞,而不是连续的纤维提供了证据。由于这些早期发现,使用越来越复杂的显微镜和成像技术一直是细胞类型鉴定的中心。通过探测细胞的形状、大小、位置和与其他细胞类型的相互作用等关键特征,可以将细胞分为不同的类别。随着分子生物学的进步,我们有能力对细胞进行染色,以获得特定的身份标记(markers of identity)。最终,不同的细胞类型可以用荧光标记,如GFP,使得对整个生物系统内细胞表型的详细研究成为可能。
基于成像的表型评估,以及其他已建立的技术,如流式细胞术,提供了在单个细胞的基础上高分辨率的信息捕获。此外,这些分析可以部署在完整的细胞和生物体中,使细胞功能得以探测。然而,这些分析产生的信息是相对低维度的,即从许多细胞捕获较少的表型特征。此外,这些特征的选择往往受到所研究生物系统先验知识的驱动,显然限制了对细胞特性的评估。相反,RNA和蛋白质丰度全基因组分析的方法支持更广泛和更客观的计数。事实上,用于定义细胞类型的分子特征数量的增加使得仅基于基因表达的细胞特性评估变得更加系统和公正。然而,这些方法依赖于混合细胞群的分析(Bulk),混合来自不同亚群的信号,完全掩盖罕见的细胞种类,限制了细胞类型识别的精度。
最近发展的单细胞技术已经填补了单个细胞的详细研究和细胞群体的 bulk 研究之间的差距。这些方法能够捕获成千上万的特征,而不需要实验上的细胞富集,因此生成了存在于任何给定组织内的细胞表型范围的精确的和无偏见的图谱,理论上,图谱可以是遗传学、表观遗传学和蛋白质组分析在内的一整套技术。虽然早期有面临通量和价格的困难,但最近发展的基于微流体的技术已经在细胞捕获率方面带来了巨大的收益。目前,池和分裂的(pool-and-split )细胞标记策略正在产生更大的细胞捕获率和进一步降低成本。
scRNA-seq提供了相对高维的数据集,包含了横跨数千个独立细胞的数千个测量值。基于降维的计算工具试图降低这种复杂性,基于转录相似性对细胞进行聚类,并使其在二维空间内可视化。这里需要注意的是,聚类特异性基因表达是用来推断细胞类型的,代表了必须通过验证来初步预测。scRNA-seq的一个关键限制是,它需要破坏组织和细胞,导致丢失对细胞类型识别有价值的空间信息。保持这种空间信息是最近新单细胞技术的一个焦点(空间转录组技术)。例如,多路原位杂交和测序技术已经使测量完整组织内亚细胞空间分辨率的基因表达成为可能。虽然这些方法最初需要预先选择用于分析的基因,但现在可以捕获数千个转录本(Eng等人,2019年)甚至全基因组基因表达的信息。
总的来说,这些技术是特别有前途的,提供了许多细胞原位的高分辨率可视化,从而允许基于表型对细胞身份进行强大的预测。
细胞功能:细胞身份的基本真相
最终,细胞身份最好由功能来定义。研究细胞功能的一种有效方法是先从物理上解离细胞,然后观察对生物体的任何生理或行为影响。例如,激光消融了秀丽隐杆线虫神经元的一个特定子集,揭示了它们在运动中的作用。另外,如果一种细胞类型仅通过表达一种特定基因来标记,则可以通过靶向表达一种毒素基因来选择性地杀死胰腺腺泡细胞来实现遗传消融。虽然在方法上是可行的,但如果细胞不能被物理隔离或没有标记出独特基因表达,消融实验是有限的。例如,在评估人类细胞功能方面,消融实验显然是不可行的。在这些更有限的情况下,细胞可以分离,并在体外或异种移植模型中测试其功能。这些方法通过单细胞技术得以实现,单细胞技术可以在蛋白质组水平上识别新的细胞表面标记组合,从而使流式细胞仪能够捕获新的细胞物种并对其进行功能评估。然而,分配细胞功能到一个以前未描述的细胞类型将需要部署一个棘手的分析框架。此外,如果培养条件不优化,分离的细胞往往会很快失去其表型和功能,体外培养的肝细胞的去分化就是例证。因此,我们如何开始探索新细胞类型的功能呢?
基于功能测定来验证细胞身份是不切实际的,那么预测细胞功能有可能吗?基因本体论是一种常用的基于基因表达模式预测细胞功能和行为的方法。然而,这种方法通常返回模糊的注释,因为基因表达不能直接转化为细胞功能。考虑到蛋白质是细胞功能的关键效应因子,测量蛋白质丰度可能是一个更准确的预测因子。事实上,机器学习方法已经被用于基于组织特异性蛋白的功能来推断细胞功能。为了提高这些预测,定量蛋白质定位和蛋白质丰度(例如,通过空间蛋白质组学)无疑将被证明是有益的。在此背景下,基于免疫染色对56个人类细胞系的12003个蛋白构建的蛋白质表达高分辨率细胞图谱是非常有价值的。同样有前景的是机器学习算法,它可以仅基于光学显微镜图像来预测细胞中的蛋白质表达和定位。
事实上,更广泛地应用机器学习来编织更全面的细胞表型图谱,可能有助于推断细胞功能和对细胞身份进行分类(Smith et al., 2018)。然而,在可能的情况下,这些预测方法最终必须得到实验证据的支持。
谱系:新的追踪技术揭示了细胞的起源
到目前为止,我已经讨论了一些可用于测量细胞表型和功能的关键工具,以及它们如何用于定义细胞特性。考虑这样一种情况,这些测量的组合揭示了以前未描述的新细胞类型。用预测工具给这种新细胞分配一些功能是可能的,理想情况下可以通过实验来证实。尽管如此,要完全理解细胞标识,就必须将其放在与其他细胞类的相互作用关系中。从动态平衡状态下的成年生物体快照构建这样一种细胞身份分类是具有挑战性的,特别是在目前数据集稀少的情况下,我们仍在努力以一种有意义的方式最好地整合它们。相反,了解细胞身份的起源及其发育谱系,是一种强大而简单的方法,可以在一个复杂得多的层次结构中定位细胞。至少,新的细胞种类可以和它最近的细胞联系起来,从而为它在生物体中的作用提供进一步的线索。那么,仅仅发育起源就能提供足够的信息来定义细胞身份吗?
谱系溯源,即鉴定来自单个细胞的所有后代,起源于惠特曼对无脊椎动物胚胎中细胞分裂和最终细胞命运的光学显微镜研究。在这些早期研究的基础上,秀丽隐杆线虫被证明是一种特别强大的谱系追踪模型,因为它的成像能力、相对较少的体细胞数量和不变性的细胞谱系。事实上,通过非侵入性的实时成像技术,已经为秀丽隐杆线虫胚胎中的每个细胞构建了完整的谱系树,记录了细胞是如何随着发育的进展而潜能下降和专门化增加的。
随着测序技术的发展,绘制直系祖先和未来细胞命运关系图的新方法已经出现。这源于基于DNA的条形码方法,在这种方法中,细胞被随机遗传DNA序列标记(Lu等人,2011年),后来发展为转录条形码,允许克隆关系和细胞身份被并行读取。这些早期的方法使克隆分析成为可能,也就是说,一个有祖先标记的创始者细胞的所有后代都可以通过遗传其完整的条形码来识别。然而,克隆后代之间的谱系关系不能用这些技术来绘制。
新的单细胞追踪方法正在出现,以填补这一空白。例如,用转录的条形码进行连续的标记可以构建谱系树。在另一种方法中,利用基于CRISPR/ cas9的基因组编辑将可变基因标签引入单个细胞。还有一种方法,基于转座子的TracerSeq (Wagner et al., 2018),利用Tol2转座子酶随机整合独特的遗传标签到单个细胞基因组中。然后,通过连续的细胞分裂进行异步插入,就可以重建谱系树。当将TracerSeq应用于斑马鱼的发育时,发现了会聚分化的证据,即无性系不同的胚胎场产生相似的细胞类型(Wagner et al., 2018)。相反,一些与克隆相关的细胞向远处分化,支持了分化分化的说法。因此,谱系分析并不总是产生预期的树形结构,即来自不同胚胎来源的细胞可以汇聚在一个相似的身份上。这并不奇怪,因为经典的秀丽隐杆线虫谱系追踪研究表明,不同的谱系可以产生相似的神经元类型(Sulston et al., 1983)。最近,同样的现象在小鼠发育中被提出,肌细胞由两个收敛轨迹产生,神经元由几个轨迹产生(Cao等,2019)。然而,值得注意的是,在小鼠发育的研究中,轨迹是通过计算方法推断的,而不是基于真实数据。尽管如此,总的来说,我们必须记住这些趋同分化的例子,当考虑在定义细胞身份单独谱系的效用时。
依靠谱系来促进细胞类型识别的另一个限制是它在人类发展的背景下的部署。在缺乏可用于绘制谱系关系的地面真实数据的情况下,我们如何推断出有意义且准确的细胞发展层次?追溯谱系追溯是一种相对简单的实验策略,利用自然发生的遗传变异来追溯无性系相关的细胞(Ludwig et al., 2019),但这种方法规模有限,不能生成详细的谱系树。作为一种替代方法,计算方法允许对scRNA-seq数据进行时间重构。然而,最终的轨迹是推断出来的,依赖于对中间细胞状态的充分捕获和采样。这可能是有问题的,特别是在追踪人类细胞身份的起源时。在这里,哺乳动物发育的体外模型(Huch和Koo, 2015)可以为人类发育提供有价值的见解。另一种可能是利用非人类的灵长类模型,进行跨物种比较来推断谱系(Boroviak等,2018)。
总之,考虑到在人类中追踪基本真相谱系的机会有限以及上述趋同分化的证据,仅根据谱系来定义细胞身份可能无法提供准确的细胞类型分类。然而,结合谱系与表型和解剖特征可能是强大的,特别是考虑到空间转录组学现在已经准备好通过补充谱系树的位置信息来生成命运图。
状态:相同的身份,不同的状态
在前几节中,我探讨了细胞表型和功能的高分辨率快照以及细胞谱系如何用于定义细胞身份。细胞身份的第三个基本方面是“状态”,它可以被描述为细胞表型的范围,由一个确定的细胞类型与其环境的相互作用产生。
T细胞就是一个典型的例子:这些细胞以不同的激活状态存在,它们对不同的刺激做出反应,但它们仍然保持着它们的T细胞特性。
事实上,细胞身份通常是稳定的,通过身份指定转录因子的自动调节来维持。在这方面,细胞身份可以被认为是“硬布线”(hard-wired),尽管它是在定义的条件下重新编程。相反,细胞状态可以被认为是“软柿子”,其中给定的细胞类型可以存在一系列微妙的不同状态,这就提出了如何为之前未定义的细胞类型区分细胞标识和状态的问题。例如,我们如何能确信一个新的转录代表一个新的细胞类型,而不是一个未被识别的已知细胞类型?
由于细胞转录组快速调整以响应环境条件的变化,仅依靠基于scrna序列的技术可能不足以解决这些问题。在这方面,探索细胞身份的遗传、表观遗传特征(由Ludwig和Bintu在2019年发表)可能提供一个更稳定的细胞类型测量,允许身份从状态中区分出来。例如,ATAC-seq(利用测序检测转座酶可达染色质)提供了染色质可达性的信息,现在可以应用于单细胞分辨率(Cusanovich等人,2018)。理想情况下,“多基因组”测量将从同一个体细胞中收集(Cao等人,2018),揭示与相同表观遗传特征相关的不同转录状态。然而,最终,这些技术只提供了组织内细胞表型的一个“快照”,身份和状态之间的联系很大程度上是推断出来的,对与给定身份相关的状态提供了很少的客观测量。
为了直接测量细胞状态,单细胞克隆或谱系图可用于绘制不同细胞状态的出现。为了实现这一点,引入扰动将是必不可少的。例如,最近的一些方法已经采用了混合CRISPR/Cas9基因组编辑,将大量的遗传扰动引入到细胞群体中,然后通过scRNA-seq或scac -seq来测量其影响。这种方法可以被修改,使细胞暴露于一系列不同的环境干扰中,例如暴露于不同的细胞因子,在不同条件下跟踪与克隆相关的细胞的特征,并将给定的细胞类型推入它们的全部潜在状态。
总之,这将提供反映不同细胞状态的地面真实数据,这些不同的细胞状态可能来自于对不同环境线索的响应相同的细胞身份。使用这些方法,我们还可以探索更极端的情况,即细胞被推过它们的边界,进入不同的身份。在这种情况下,谱系可能有助于区分身份的变化和状态的戏剧性变化之间的界限。总的来说,对于每一个细胞特性,我们都可以将它与它在特定条件下存在于给定状态下的概率联系起来,从而潜在地揭示了细胞特性和细胞状态背后的分子调控。
视角
在这里,我概述了细胞身份的三个支柱——表型(和功能)、谱系和状态——每一个都包含了一套独特和互补的测量方法,它们可以一起以一种系统和公正的方式来定义细胞身份。这种方法无疑将揭示新的细胞身份,可以放置在一个更大的细胞分类中,为他们的生理作用提供有价值的线索。
由于对体外培养体系的依赖,而体外培养体系并不能完全再现体内的同类体系,因此目前在人类环境中对该框架的全面应用可能存在一定的局限性。然而,在这方面,继续努力改进人体组织培养模型将证明是有益的。总之,这三个细胞特性的支柱将支持高分辨率动态细胞图谱的构建,有望揭示控制细胞特性的分子调控新方面,并为理解和操纵细胞的命运提供新的机会。这些努力提出了一些有趣的问题:
是否存在一个最小的观察集合,可以用来普遍定义所有细胞类型和生物体的细胞身份?
这就引出了第二个问题:
我们需要从细胞中获取什么信息才能从细胞的现状预测它们的过去和未来?
这是特别令人兴奋的,因为细胞身份的概率模型的构建可以实现,例如,预测一个细胞的未来疾病状态,为疾病进展和诊断提供新的见解。这些问题也与细胞命运重编程领域相关,至少,我们将获得一个高分辨率模板,以概括主要功能细胞类型的身份。一旦我们积累了关键数量的信息,就可以问:
细胞身份的景观是连续的还是离散的?
如果细胞身份确实可以作为一个连续体存在,这就提供了稳定短暂表型和创造新的细胞身份的机会,赋予已知的细胞类型新的功能。
通过我们对定义细胞身份的不断努力,我们离实现这些可能性更近了一步。
注:<单细胞时代 · 2021春节系列> 是参考学术或媒体文章整理而来,个人水平有限,错讹难免,还请读者诸君批评指正。内容均为个人观点,不代表任何单位,也不构成就业或投资建议,图片来自网络,侵删。
References
[1]
https://dev.biologists.org/content/146/12/dev169748
[2]
https://www.nature.com/articles/s12276-020-0409-x
[3]
https://www.annualreviews.org/doi/pdf/10.1146/annurev-immunol-090419-020340