bioRxiv | 破译疾病基因功能的单核跨组织分子参考图谱

2021-08-24 10:37:54 浏览数 (1)

编译|姜晶

本文介绍由麻省理工学院和哈佛大学布罗德研究所的Gokcen Eraslan等人发表于bioRxiv的研究成果:本文作者通过在单细胞水平上使用单核RNA-Seq (snRNA-seq) 技术对来自16个供体的25个样本中的每一个应用四种snRNA-seq方法,生成了209,126个核的跨组织图谱,并将它们与新鲜组织的scRNA-seq进行了基准测试。本文作者使用条件式变换自编码机 (cVAE) 来整合跨组织、个体和实验室方法的图谱。通过该图谱本文作者识别罕见的单基因肌肉疾病的基础细胞类型,对于常见复杂疾病识别了可能构成疾病机制的细胞类型和基因模块。本文描述的实验和分析框架将能够对细胞和分子过程如何在个体和群体之间变化展开大规模研究。

1

简介

组织稳态和病理学源于许多不同细胞类型之间错综复杂的相互作用,基因变异会影响细胞间的功能和相关作用从而引发疾病。人类遗传研究的进展有助于绘制数万个潜在的罕见单基因疾病或与复杂多基因疾病风险相关的基因座,后者主要定位在基因组的调控区域,并作为表达数量性状位点 (eQTL) 对下游顺式和反式基因表达的影响相关联。最近,单细胞基因组学已成为研究人体组织生物学的工具,构建了与常见疾病、罕见疾病和癌症相关的健康器官和患病组织的细胞图谱。

结合人类遗传学和单细胞基因组学的进展,大大增强我们对疾病基因功能和调控变化的理解,因为细胞和组织是疾病基因起作用的关键中间体。特别是,研究表明,组织、细胞类型、时间点和刺激都诱导了多种表达模式以及与疾病相关基因位点的相互作用。最近的研究将单细胞表达图谱与遗传信号相结合将风险基因与特定细胞类型和状态相关联在相关组织中。

然而,由于复杂疾病通常在多个组织中表现并涉及多个组织的细胞,因此充分意识到这一机会需要从整个身体的不同组织和多个不同人群的大量个体进而生成图谱。这带来了几个挑战。首先,收集和处理新鲜组织样本成单细胞悬液在逻辑上具有挑战性,并且对于某些组织(例如脑、肌肉和脂肪)而言具有内在的困难,并且大多数组织难以缩放,除非它们可以预先收集并冷冻保存。因此,在人群中进行的大规模单细胞分析研究专注于外周血单核细胞,这些细胞可以冷冻和解冻用于多重单细胞分析。可应用于冷冻组织的snRNA-seq提供了一种引人注目的替代方案。其次,跨多个组织的细胞类型和状态的注释和分类需要了解跨组织类型的实质、免疫和基质细胞之间的生物学关系。第三,需要跨组织分析框架,用于数据集成、解释以及与来自单基因和复杂性状研究的基因合成。

作者为多种人体组织的snRNA-seq开发了一个框架,并将其应用于8种存档的冷冻组织类型,这些组织类型以前作为 GTEx 项目的一部分,从肺、骨骼肌、心脏、食道黏膜和肌层、前列腺、皮肤和乳房中获得。作者使用四种snRNA-seq协议从16个捐献者的25个样本中生成了一个包含 209,126 个细胞核图谱的跨组织图谱。作者将跨组织、捐献者和协议的数据与cVAE整合在一起,并根据文献衍生的标记基因对每个细胞子集进行注释。作者识别了组织驻留免疫细胞的共享和组织特异性特征,包括LYVE1-和 HLA II 类表达巨噬细胞之间的二分法,以及跨组织的脂质相关巨噬细胞样细胞的存在。作者将罕见的单基因肌肉疾病与可能构成这些疾病可变表现的细胞类型联系起来,并指定了其病理学中涉及的生物学过程和细胞间相互作用。作者还将GWAS分析的常见复杂疾病和性状基因座与细胞类型和基因模块联系起来,作为推断的疾病机制。最后,作者展示了来自多个捐献者的组织的汇集,以阐明在细胞图谱中分析大量个体以进行人类遗传学和疾病研究的途径。

2

结果

来自存档冷冻人体组织的多组织、多个体单核参考图谱

作者从之前由 GTEx 项目收集和储存的 25个冷冻存档组织样本构建了一个跨组织 snRNA-seq 图谱,涵盖来自16个个体(7名男性和9名女性)的8个组织部位:乳腺、食道粘膜、食道肌层、心脏、肺、前列腺、骨骼肌和皮肤,每部位3-4个样本(图1A)。作者根据RNA质量、组织自溶评分以及现有大量 RNA-seq 和基因组测序数据的可用性来选择样本。图1A I. 顶部部分代表采样组织部位,图1A I. 底部代表个体样本,包括男性和女性,图1A II. 描述实验设计流程和分析。图1B到图1F描述的是跨组织单核图谱UMAP表示形式,UMAP图中点的染色是由不同类型的定义决定的,其中图1B代表细胞室、图1C代表广泛的细胞类型、图1D代表组织、图1E代表隔离协议、图1F代表个体捐献者。图1 G代表跨组织的不同细胞类型组成,其中行对应的8种组织中每种细胞类型(颜色)的总细胞比例(%),以及每种组织中的细胞核数量(右);圆圈中的数字对应于图例中对应的广泛细胞类型;每个彩色条内的黑色垂直线对应于来自每个个体的细胞核的相对比例。

图1 八个成人冷冻存档组织中的交叉组织 snRNA-seq 图谱

跨组织图谱注释发现多种细胞类型,包括难以描述的和稀有细胞子集

为了促进对整个数据集的探索并识别细胞子集,包括稀有类型,作者使用cVAE集成了来自所有样本和方法的数据。作者设计cVAE来明确纠正多种表达变异来源,例如不同个体、性别和方案影响,同时保留组织和细胞类型特异性变异(图1B-F)。细胞首先按细胞类型分组,然后按组织特异性子集分组(图1B-D),暗示细胞类型之间的变异大于组织中细胞类型内的变异。作者通过识别类之间差异表达的基因并将它们与已知的基于文献的标记物基因进行比较,在降维和基于图的聚类后对每个组织内的细胞类型给予注释。通过多次迭代,作者分层定义了跨组织(例如,脂肪、内皮、上皮、成纤维细胞、免疫、肌肉)(图1B)、广泛的细胞类型(例如,管腔上皮细胞、血管内皮细胞)(图1C)和颗粒细胞亚群(例如,管腔上皮细胞1和2,血管内皮细胞1和2)。注释在提取方案、组织和供体中都由很好的鲁棒性。

该图集具有 43 个广泛的细胞类别(图1C),包括组织共享细胞类型和组织特异性子集(图 1G)。特别是,单核图谱捕获了难以通过基于解离的scRNA-seq分析的细胞类型的概况,包括 2,350个脂肪细胞、21,607个骨骼肌细胞和9,619个心肌细胞。跨组织和跨样本整合增强了解析多个稀有细胞子集的能力。

snRNA-seq协议对应于scRNA-seq在整个组织中表现良好

作者对他们的snRNA-seq核提取协议在所有8个组织中的相对性能以及对其他相关组织中的snRNA-seq、scRNA-seq 和批量 RNA-seq数据集的性能进行了基准测试。对于每个数据集,比较了每个分析细胞/细胞核的标准QC指标、捕获的细胞类型多样性和细胞类型比例。

在四种检测的细胞核分离方案(CST、NST、TST和EZ)中,根据多种质量指标,EZ 方案在8种类型组织中的每一种中表现出较低的性能(图2A)。TST、CST和NST协议通过香农熵测量的具有可比细胞类型多样性(图2A),皮肤、乳房和前列腺的变异性更高(p 值 = 0.06241,Fligner-Killeen 检验),而EZ协议导致较低的多样性(图2A,线性混合效应模型效应大小=-1.08,p=5*10-11)。

作者还比较了snRNA-seq和肺、皮肤和前列腺新鲜组织的scRNA-seq。对于细胞组成(图 2B),作者在隔室中发现了相同的主要细胞群,这反映了基于scRNA-seq数据训练的多类随机森林分类器应用在snRNA-Seq数据上识别的细胞类型的准确性(图2C-E),以及蛋白质编码基因的细胞类型内在谱的整体相似性。显着的差异包括细胞高表达对比应力/解离特征的核分布(Wilcoxon秩和检验,Benjamini-Hochberg FDR < 10-16 ,图2F),正如我们之前报道的,以及核糖体和核编码线粒体蛋白基因(图2G),与其较长的半衰期和更高的细胞质水平一致。相反,细胞核具有更高水平的较长转录本,和具有更高数量腺嘌呤延伸的转录本(图2G),与之前的报告一致。值得注意的是,snRNA-seq总体上捕获的淋巴细胞比例相对较低。

图2 snRNA-seq 和 scRNA-seq 之间细胞类型多样性和细胞内在特征的一致性

单基因肌肉疾病组的基因富集在心肌、骨骼和平滑肌组织中不同的肌细胞和非肌细胞子集

利用图谱中的三种肌肉类型—心脏、骨骼肌和平滑肌—作者试图识别一组单基因肌肉疾病的细胞类型。图3A展示了广泛的细胞类型与单基因肌肉疾病组的关系。不同的疾病组基因子集不仅与不同的肌细胞子集相关,还与神经元、Schwann细胞、成纤维细胞和脂肪细胞相关,这些模式重现了已知的疾病机制以及突出的新关系(图3A)。作者还发现在非肌细胞中显着高表达但在肌细胞中未检测到的单基因肌肉疾病基因(图3B)富集于外周神经系统发育、髓鞘形成、神经元鞘膜、离子跨膜转运调节、L1与锚蛋白和神经丝束之间的相互作用组装基因(图3C)。

图3 单基因肌肉疾病基因富集在肌细胞和非肌细胞子集以及它们在心脏、骨骼和平滑肌组织中的相互作用

一些单基因肌肉疾病基因可能会影响组织中的细胞相互作用

为了更好地了解单基因肌肉疾病基因对组织中细胞类型之间相互作用的潜在影响,作者通过受体-配体相互作用将三种肌肉组织中的细胞相关联,其中至少一个基因是单基因疾病基因。肌细胞的相互作用由疾病基因DAG1(先天性肌营养不良)、ACVR1(骨化纤维发育不良)、NPPA(心房颤动)、JAG1(Charcot-Marie-Tooth病)、ERBB3(致死性先天性挛缩综合征)和 ERBB4(Charcot -Marie-Tooth病)介导的,这些疾病中肌细胞与其他细胞类型的相互作用可能被破坏(图3D)。仅涉及非肌细胞的假定细胞间相互作用包括疾病基因L1CAM(MASA 综合征)、MET(关节弯曲和肌肉发育不良)和NGF(遗传性感觉和自主神经病变),每一种都可能影响多个细胞对,包括神经元和Schwann、卫星、免疫细胞和基质细胞(图3E、F)。

映射到GWAS基因座的QTL基因的细胞类型特异性富集

为了将遗传变异与表达或剪接性状变化与细胞类型联系起来,并优先考虑特定细胞和组织中复杂疾病和性状的致病基因,作者测试了来自21个复杂性状的GWAS基因座,在分析的8个组织中的至少一个组织中可能有影响,是否富含每个组织中细胞类型特异性高表达的基因。作者通过基因座中细胞类型特异性基因的分数对基因座进行评分(图4A)。在许多情况下,当 GWAS 基因座富含来自已知作用组织的特定细胞类型时,在来自其他未参与组织的相同细胞类型中观察到类似的富集(图4B、C)。细胞类型富集可以优先考虑GWAS基因座中具有多个LD定位基因和细胞类型的特定致病基因,例如NDUFB10、MYH7、FLNC、CFL2、MYH6、MSRB1和CASQ22 用于心房颤动和心肌细胞(图4D)。

图4 细胞类型特异性表达富集和17种疾病性状相关8个图谱组织剪接QTL定位基因到GWAS基因座

3

总结与讨论

在本文中,作者开发了强大的湿实验室和分析框架,并应用它们从储存的冷冻组织中生成跨组织图谱,跨越来自8个组织类型的25个样本的209,126个细胞核图谱。作者对四个用于细胞核提取的实验室协议进行了基准测试和优化,开发了一个强大的数据集成和跨组织注释框架,并展示了两种组织类型的多路复用,以将这些方法扩展到更大的个体群体。作者通过该图谱进行研究,并提出了未来的几个发展方向,1) 解决本文描述的人类巨噬细胞子集是否显示与其小鼠对应物相似的组织定位;2) 进一步揭示不同基因、细胞类型和细胞核的疾病扰动可以引发相似疾病表型的机制;3) 单细胞表观基因组学和多组学将与GWAS变异与其靶基因以及它们起作用的细胞类型和程序联系起来。

参考资料

KGokcen E., Eugene D., Shankara A. et al. Single-nucleus cross-tissue molecular reference maps to decipher disease gene function. bioRxiv, July 19 , 2021.

doi: https://doi.org/10.1101/2021.07.19.452954

数据

https://anvil.terra.bio/#workspaces/anvildatastorage/AnVIL_GTEx_V9_hg38

代码

https://github.com/broadinstitute/gtex-single-nucleus-reference

na

0 人点赞