分享是一种态度
摘要
各种形式的肿瘤内异质性和复杂性会影响抗肿瘤治疗的疗效,导致治疗耐药性和转移。而近年来兴起的单细胞测序技术,结合数据整合方法的创新,使得精细理解肿瘤及肿瘤微环境中细胞间的相互作用,表征疾病进展过程中肿瘤内部结构成为可能,本文着重介绍单细胞RNAseq测序技术原理、肿瘤研究中应用、多组学数据整合分析、单细胞RNA测序未来发展等内容。
前言
肿瘤是由各种实质和间质细胞群构成的组织,细胞类型的异质性和细胞功能的复杂性,被认为是各种抗肿瘤治疗的耐药和复发的主要原因,并且与不良预后相关。肿瘤细胞与其所在的微环境(TME)动态相互作用,促使肿瘤细胞的进化和多样性形成,其中机制既有肿瘤微环境免疫抑制:如M2巨噬细胞、髓系来源的抑制细胞(MDSCs)和调节性T细胞(Treg),产生趋化因子和激活信号通路,以阻断T细胞的效应功能,并将免疫抑制免疫细胞吸引到肿瘤中;又有肿瘤细胞在缺氧,DNA损伤,饥饿等压力下激活不同的转录程序,或改变细胞周期、细胞功能,赋予自身对环境的高适应能力(达尔文选择)。
近几年快速发展的单细胞转录组测序(scRNA-seq)提供了大量精细的分子信息,使得表征肿瘤内各种罕见或未被鉴定的细胞群成为可能。在肿瘤的治疗中,针对某一靶分子的药物仅对表达该分子的细胞群起杀伤作用,即使该靶分子被多数目标细胞表达,这也导致了未被杀伤的少数细胞继续存活、扩增、进化,从而导致肿瘤的复发、进展。而单细胞转录组测序的广泛应用,能推断出遗传的变异、区分鉴别肿瘤细胞内各种已知/未知的细胞亚群,分析肿瘤细胞和基质细胞的相互作用,为肿瘤进化的机制研究、靶向药物的筛选临床应用至关重要。本文将从单细胞RNAseq测序技术原理、肿瘤研究中的应用、多组学数据整合分析、展望等四个方面进行阐述。
本文将从单细胞RNAseq测序技术原理、肿瘤研究中的应用、多组学数据整合分析、展望等四个方面进行阐述。
单细胞RNAseq技术原理
单细胞RNAseq最初由Tang在 2009年发表,但直到14年才降低测序费用,逐渐进入大家的视野。和Bulk RNA-seq (测量一个大的细胞群体中每一个基因的平均表达水平)不同,它测定的是单个细胞内每个基因的表达量分布,对于研究特定细胞转录组的变化是重要的。测序的通量(细胞量)也由最初的10^2^ 上升至10^6^ ,且不断递增,向着高通量的方向发展。现有许多处理单细胞测序的流程,比如13年的SAMRT-seq2,12年的CEL-seq,15年的Drop-seq和inDROP。测序平台则包括Fluidigm C1、Wafergen ICELL8、10X Genomics Chromium。
测序前准备:需要分离出感兴趣的单细胞,即细胞捕获,捕获的技术决定了细胞如何被筛选、获取怎样的测序外的补充信息、数据产量,目前主要是基于微孔、微滴-微液流的捕获方法:
在基于微孔阵列的高通量scRNA-Seq中,单个细胞与单独的独特条形码的mRNA捕获珠共包裹在物理隔离的微孔中(每个细胞的反应体积:~100P1)。珠粒捕获的mRNA分子的逆转录导致将珠粒特异的条形码整合到每个cDNA分子上。然后将来自所有细胞的条形码cDNA分子汇集在一起,并转换成单个RNA-Seq文库。
在基于滴液的微流控scRNA-Seq中(10X Genomics平台),单个细胞被封装成纳米升大小的油滴,其中包含裂解缓冲液和附着在Toyota opearl HW-65S珠子上的寡聚条形码。在封装时,单细胞被裂解,RNA通过与珠子上寡聚物的Poly(T)尾部结合而被条形化,从而产生所谓的STAMP(附着在微粒上的单细胞转录物)。然后打破液滴乳状液,回收悬浮液中的珠子,进行一次逆转录反应。然后使用TSO引物通过PCR扩增cDNA。扩增的PCR产物在测序和生物信息学分析之前经过标签(片段和接头连接)和文库扩增。
基于微流控技术的方法对于肿瘤和TME的研究有两个关键的优势。首先,它们提供了广泛的可捕获的细胞大小,因为在复杂组织中,预计包含小细胞类型(如淋巴细胞)和大细胞类型(如巨噬细胞或上皮癌细胞)。第二个优势是它们可以在短时间内一次捕获多个细胞。因此,这些技术对于生成肿瘤中存在的细胞类型的整体图像非常有用。
经过上面细胞分选、反转录、文库扩增后,就可以进行二代测序,过程与bulk RNAseq类似,可以借助许多工具:
- Falco [云端处理流程]
- SCONE(Single-Cell Overview of Normalized Expression)— 质控和数据标准化的包
- Seurat-- 用于数据质控以及后续分析探索数据
- ASAP(Automated Single-cell Analysis Pipeline) —交互式网页分析
单细胞RNAseq数据整合分析
对单细胞的分析方法,最初主要在单一模式的测量(例如,DNA序列,RNA表达量或染色质可及性)。尽管这些技术已为细胞多样性和发展带来了革命性的进步,但这种分割的研究方法限制了对单个细胞中生物分子之间关系的深入理解的能力。如何对不同模式的数据进行关联、建模、相互验证,对细胞状态的深刻理解至关重要,目前是单细胞分析领域的挑战。另外,随着数据规模指数性爆发,如何整合不同平台来源的数据,消除批间差,就需要新的计算方法来对样本进行标准化和联合分析。思路如下:
- FACS结合scRNA-seq
采用流式分选细胞,随后进行scRNA-seq(MARS-seq/Smart-seq/2),同时获得单细胞与对应的荧光信号,将荧光所表示的蛋白质水平与转录组在同一细胞中关联。利用FACS结合半定量RT-PCR,结合scRNA-seq,根据细胞表面marker可以区分细胞类型与状态和鉴定稀有细胞。
- 细胞内成分 分离分析
单细胞基因组与胞内蛋白的scRNA-seq实验,通过不同标签筛选出不同组分;例如可以将胞质与细胞核物理分离,以通过scRNA-seq进行胞质mRNA的测量,并使用全基因组测序或亚硫酸氢盐测序对基因组DNA进行测量,以分别收集有关细胞基因型或甲基化组的补充数据。
- G&T-seq 和 DR-seq
G&T-seq通过加入oligo(dT) 特异性分离mRNA同时保留基因组DNA从而实现了基因组转录组平行测序(Macaulay, I. C. et al., 2015);DR-seq通过则通过加入barcode特异扩增cDNA序列实现 基因组转录组 平行测序(Dey, S. S. et al., 2015)。这使得单细胞基因表达水平与其对应基因型联系起来,深度揭示单细胞间DNA拷贝数变异与染色体重排对下游mRNA丰度的具体关联。这些方法适用于研究体细胞基因高度变异的肿瘤组织。
DNA甲基化与转录组水平结合研究是基于scBS- seq技术发展的,同普通BSP一样,用亚硫酸氢钠处理DNA片段随后进行扩增,结合G&T-seq,可以分析同一细胞内的DNA甲基化模式和基因表达数据。
由于DNA甲基化存在不稳定性和异质性,因此若要研究DNA甲基化与基因表达间的关系,则必须将表观基因组变异与细胞间的异质性区别开来。通过DNA甲基化与转录组关联分析,为启动子甲基化与基因表达间的负相关性提供深层次的证据。
- 胞内蛋白与mRNA关联研究(两种方法)
其一(Darmanis, S. et al., 2016)是将FACS sort到的细胞裂解后分离裂解液,分别进行蛋白质与RNA定量。作者采用PEA (邻近探针延伸分析) 检测蛋白并用RT-qPCR定量,采用qRT-PCR定量mRNA,可以同时检测82个mRNA/75个蛋白。 其二 是将FACS sort到的细胞在微流控芯片中同时进行逆转录和PEA而不分离裂解液。该法可以同时检测96个mRNA/38个蛋白。这两种方法检测的蛋白与mRNA数量与质量均有限。
整合不同来源的测序数据
不同实验室、不同workflow产出数据会有批次效应,可以利用CCA/MNN可以识别出两个数据集间共有的部分,判定细胞间共有的生物学状态,然后以这些相同状态的细胞为基准消除批次效应。
CCA法:在Seurat V2的分析流程中,用CCA鉴别出不同数据集间相同的细胞类型,且可以避免出现由批次效应或常规PCA造成的假阳性细胞类型;接着采用动态时间规整算法校正数据集间细胞密度差异。这两步骤可以将细胞投影到一个低维空间,聚类性状相近的细胞,从而消除了不同数据集带来的影响。
mnnCorrect (MNN) 法:该方法最早应用于图像识别,可以寻找不同数据集间 最接近的细胞,将之判定为潜在的状态相同细胞,随后利用成对MNNs距离计算一个批次参数(batch vector),用来校正原始表达矩阵;
这两个方法极大提升发现稀有细胞、微弱转录差异细胞及与之对应maker的能力。从而建立一个统一的单细胞参考数据集; 在细胞层面,比较不同细胞的状态,对不同处理条件的测序数据进行标准化;并且使跨物种的数据分析成为可能。
单细胞RNAseq 在肿瘤研究中的应用
二代测序方法的出现,已经成为研究肿瘤精准治疗的关键。但是,即使通过分子(靶基因、靶蛋白)和病理形态学标准对肿瘤进行分类,仍然有相当多的患者对基于靶分子设计的个性化治疗无反应,或经历肿瘤退缩后再次进展。其中一个合理的解释是,这些测序分析都是基于大量肿瘤细胞总体数据。基于总体数据而提取到的特征息主要由最丰富的细胞群(通常是具有生长优势的癌细胞克隆)控制,并掩盖了组蛋白低丰度或稀有种群的概貌,也包括具有分化特性的稀有癌细胞类型,例如癌症引发细胞,以及来自TME的细胞。实际上,来自TME的细胞的转录组数据能提供宝贵的微环境信息,以此为基础设计新的TME细胞靶点药物,可与抗肿瘤细胞的常规药物联合使用,如通过表征肿瘤浸润的免疫细胞(IICs)确定针对免疫抑制/活化信号传导就是个很好的策略。
随着单细胞分离的进步、测序成本的降低和技术的成熟,使得在单细胞水平上分析基因组,转录组和表观基因组的方法取得了长足的发展。在目前可用的大量单细胞基因组技术中,单细胞RNAseq 是目前了解肿瘤中低表达细胞群体生物学的最有用和最可靠的方法。在过去的5年中,在不同的癌症类型的肿瘤的单细胞转录的研究已经出现了,这包括:神经胶质瘤、黑素瘤、结肠直肠癌、肝细胞癌、肾癌、非小细胞肺癌(NSCLC)、乳腺癌和髓细胞性白血病。
i
最初,针对肿瘤研究的scRNAseq研究仅集中于上皮来源的肿瘤(癌),旨在研究肿瘤内癌细胞的异质性,和鉴定出解释对靶向治疗耐药的罕见肿瘤亚群或肿瘤干细胞亚群,从而克服了大规模RNA-seq或微阵列研究的局限性。Patel等人对肿瘤样品中的scRNAseq进行了首次研究,从五个原发性胶质母细胞瘤中分离出总共430个单细胞,并使用Smart-seq方法进行了全长mRNAseq,他们发现肿瘤内不同细胞群的内异质性极高:
- (1)胶质母细胞瘤相关途径的典型受体和配体的嵌合表达已被用作治疗靶点,例如EGFR或受体酪氨酸激酶;
- (2)干细胞和分化细胞状态的梯度表达;
- (3)同一肿瘤样品中不同胶质母细胞瘤亚型标记的表达;所有这些异质性特征都直接影响治疗策略和疾病预后。这项研究首次揭示了人胶质母细胞瘤肿瘤细胞的异质性,但是这些肿瘤样品在scRNAseq之前就被肿瘤浸润的白细胞(CD45 )所消耗,随后的下游分析仅针对癌细胞(420个具有癌症相关拷贝数变异(CNV)的细胞)
在另一项肝细胞癌的研究中,25个单细胞用唐-苏拉尼方法进行了RNAseq分析。尽管在这项研究中分析的细胞数量很少,但真正的优势是发展了一种新的方法,即同时分析单细胞中的DNA拷贝数、DNA甲基组和转录组(scTrio-seq),多模态(多种数据类型)的结合,可以更全面地分析肿瘤的异质性。分析揭示了两个在CNV、DNA甲基化和RNA表达谱上存在明显差异的细胞亚群,其中RNAseq表达最低的亚群显示出更多的恶性标记特征,包括更多的CNV获得,更多细胞入侵的基因特征和逃避免疫监视。不过,这项研究主要将重点放在癌细胞上,并没有对TME细胞进行探索。
另一项研究是针对慢性粒细胞白血病(CML)的患者,作者分别在诊断、缓解和疾病进展时用FACS和Smart-Seq2检测的2000多个单细胞(155例)。同时,该团队开发了一种新的方法,可以同时获得BCR-ABL(CML中存在的一种融合基因,用作治疗靶点)的高灵敏度突变检测和同一单个细胞的转录组分析。该方法是以BCR-ABL为靶标的Smart-seq2方法,其中BCR-ABL特异性引物在反转录和扩增步骤中被多路复用。这项技术揭示了慢性粒细胞白血病单细胞的异质性,包括鉴定具有不同分子特征的慢性粒细胞白血病细胞亚群,这些细胞在持续治疗期间选择性地持续存在。
Guo及其同事在14例初次治疗的NSCLC(115)中进行了scRNAseq(Smart-seq2)鉴定,发现了两个带有耗尽前标记的CD8 T细胞亚群,它们与肺癌患者的明显更好的患者存活率相关。还发现了高度迁徙的T细胞亚群,该亚群可能与对检查点抑制剂的阳性反应有关,最后他们还观察到Tregs亚群内的异质性很高,这可能表明了激活的不同阶段。
还有一项研究专门针对另一个高度丰富的IIC在脑胶质瘤的背景下,肿瘤中肿瘤相关巨噬细胞(TAM)的数量特别丰富。通过两种scRNA测序方法C1 Fluidigm / SMARTer和10X Genomics Chromium对表内和肿瘤内TAM进行分析,发现血液来源的TAM与小胶质细胞TAM呈现不同的基因特征,并且在治疗前的神经胶质瘤中表现出更多的M2表型(表达免疫抑制性细胞因子,并且具有代谢新陈代谢),并且其存在与低度神经胶质瘤的生存期较差有关,提示潜在的神经胶质瘤用作基于血液的预后生物标志物,并建议采用更多针对TAM的免疫治疗策略。
靶向癌细胞和靶向TME的细胞的组合疗法(包括免疫疗法)将成为针对有效癌症治疗反应的协同策略。因此,明确每个患者肿瘤细胞群类别、免疫细胞构成及其功能状态,对设计个性化和针对性的抗肿瘤治疗方案至关重要。
展望
未来,鉴定新的或已知的细胞群可能仍然是scRNASeq实验的关键目标。但是,由于细胞数量和敏感性之间的权衡,scRNASeq实验可能不会只有一个最佳平台。同样,基于不同的实验设计,在数据降维、特征选择和无监督聚类的选择也都是唯一最佳的。此外,对于通过scRNASeq鉴定的细胞群体进行分析仍然存在许多挑战,例如,要将来自scRNASeq实验的细胞群与生物学功能关联起来通常是一个挑战性的问题,目前没有自动化的程序或软件可以完全执行此任务。尽管可以使用现有方法轻松识别新型细胞群,但必须使用外部数据或实验来验证这些发现。