共病遗传的研究方法:关于多发性硬化症和炎症性肠炎遗传共病研究的例子

2021-10-18 18:06:05 浏览数 (1)

全文6,358字(不含代码),8 图,阅读 25 分钟。封面图源:pexels.com

-------/ START /-------

今天我想分享一篇今年9月24日发表于 《Nature communication》上一篇名为“Investigating the shared genetic architecture between multiple sclerosis and inflammatory bowel diseases1” 的文章,它的中文名这里翻译为:关于多发性硬化症(MS)和炎症性肠病(IBD)的共同遗传结构的研究。

文章除了围绕多发性硬化症(MS)和炎症性肠病(IBD)之外,我认为这篇文章更重要的一个方面是阐述关于共病遗传的研究方法和思路。

我这里说的 “共病遗传(或称异病同根)” 指的是表面上看起来不同的疾病,实际上有着一个共同的起源和诱因,这个起源很多时候就来自于相同遗传结构上的失调所致

NC 的这篇文章就是通过研究遗传因素确定了 MS 和 IBD 之间所存在着的共同遗传结构(Shared genetic architecture)。

它的研究思路主要是利用全基因组关联分析方法(Genome-wide association study, GWAS)和孟德尔随机化方法(Mendelian randomization, MR)。同时在研究中作者也使用了多种较新的统计学方法。所以,在这篇文章里,我主要是想借由对这篇NC文章的解读和大家一同了解并学习一下关于异病同根的研究思路和用到的统计学方法。

接下来,文章将从背景、方法和结果这三个方面展开。

背景

首先,我们想象自己是一个临床医生:一个同时患有多发性硬化症(Multiple sclerosis, MS)和炎症性肠病(Inflammatory bowel diseases, IBD)的患者前来就医。但不幸的是临床上常用于治疗多发性硬化症的药物会加重炎症性肠病的症状,并且临床上常用于治疗炎症性肠病的药物又会恶化多发性硬化症的病程,这个时候你该怎么办?

  • 多发型硬化症(multiple sclerosis, MS):一种影响运动、感觉和认知的中枢神经系统疾病,以炎症性脱髓鞘和神经退行性病变为主要特点的独特而罕见的自身免疫病,主要表现为反复发作的视力模糊、四肢无力、疼痛、疲劳等。
  • 炎症性肠病(inflammatory bowel diseases, IBD):一种以胃肠道慢性炎症为特征的肠道疾病,包括溃疡性结肠炎(UC,主要发生在大肠和直肠,偶尔在末端回肠)和克罗恩病(CD,可累及肠道所有部位),主要表现为腹痛、腹泻等胃肠道症状。

这个设想的病例并非天方夜谭,近年来的流行病学研究确实已经发现了 MS 和 IBD 之间在病因学上是存在关联的(事实上还有很多疾病都存在类似的关联)。那么,作为一名临床医生要想对这类病人提供合理的治疗方案,就有必要深入地研究这两种疾病背后的共病机制。

在9月24日 Nature communication 上发表的这篇文章里,作者来自澳大利亚塔斯马尼亚大学孟席斯医学研究所 MS 研究团队,他们利用公开的数据集着重研究了 MS IBD 背后潜在的遗传关联。

这个研究的数据来源全部是公开数据(我很佩服这一点,可见提出有意义的科学问题是多么的重要),是对现有数据的再次挖掘,原文后附有全部数据集的地址。

MS 和 IBD 都是具有中等遗传力的疾病,已有的 GWAS 已经报道了上百个与MS、IBD(UC/CD) 发病风险有关联的突变,并通过富集分析发现了 MS 和 IBDs 有关的 SNPs 位点在相同的组织(如肺,全血)里都有富集。另外,也发现了这两类疾病共享了几种风险基因座(loci,染色体上有遗传效应的DNA序列)。

遗传力(Heritability):遗传因素对性状的影响大小,定义为遗传方差占性状方差的比值,介于 0~1 之间。当遗传力为1时,表型变异完全由遗传因素决定,当遗传力为0时表型变异完全由环境因素决定。一般认为, 大于 30% 的遗传力叫做高遗力, 10%~30% 为中等遗传力, 10%以下为低遗传力。

但是,想要真正深入理解这两个病的共同遗传基础,还需要解决下面这三个问题:

1、与 MS 和 IBD 存在遗传联系的 SNPs 主要是是哪些在起作用?

2、MS 和 IBDs 之间是否存在基因多效性(pleiotropy)的影响或者存在内在的因果关系?

3、共享的富集组织/细胞是否反映出了这些细胞类型即是这两种疾病的共病基础?

基因的多效性(pleiotropy):一个基因决定多种表型性状的性质。例如,人的镰刀型细胞贫血往往合并黄疸,虽然病因只是由一个突变基因(β链的第6位氨基酸谷氨酸被缬氨酸代替)所致,但在体内,镰刀状红细胞往往会阻塞肝的小血管从而引起黄疸并发。

如何回答这些问题就是这个研究的核心了,同时它的思路和策略是我们要重点关注的地方。

方法与主要结果

图1 技术路线和统计方法示意图

图1是文章的主要技术路线图,概述如下:

  • 对于第一个问题:首先,利用 MS 和 IBDs 的 GWAS 汇总数据进行 S-LDSC 和双变量 LDSC 分析,鉴定出了 MS-IBDs 的全基因组遗传关联,使用ρ-HESS估计了不同MS-IBDs的局部遗传关联;在确认了遗传关联后,研究用跨性状全基因组关联meta分析识别与MS-IBDs共病的风险SNPs;
  • 对于第二个问题:使用 6 种不同的孟德尔随机化方法来稳健且全面地评估 MS 和每种 IBDs 之间的因果关系和潜在的基因多效性现象;
  • 对于第三个问题:同时使用 GTEx 和单细胞测序(scRNA-seq)数据,对 MS 和 IBDs 在多种不同组织和多种特异性细胞中的表达分别依据 SNP 类型进行富集分析,从而鉴别出与每种或多种疾病关联最密切的组织/细胞类型。

孟德尔随机化(mendelian randomization ,MR):为了研究某种exposure和result之间的因果关系,研究中可能会用到MR分析,它的基本思想就是将某些遗传位点作为中间媒介,对与exposure有关的显著遗传位点与result进行关联分析,如果结果是这个遗传位点和result有统计学意义上的关联,那么我们认为exposure和result之间存在因果关系;反之,则认为他们不存在因果关系。

这个研究所用到的数据都是公开可得的,原文附有这些数据集的地址,其中:

1、MS 的 GWAS summary 结果来自国际多发型硬化病遗传学联合会(IMSGC)里包含15个数据集的 GWAS meta 分析(包括14,802名病例和26,703名对照,病例和对照都是欧洲人),同时数据还用了千人基因组的数据作为 Panel 进行 Imputation,再通过一系列质控,排除模糊SNPs,按MAF>1%的标准,最后得到约 6.8M 的 SNPs 纳入 meta 分析;

2、IBD(包括UC和CD两部分,12,882病例和21,770对照),UC(6,968 病例20,464对照)和 CD (5,956病例14,927对照)的 GWAS 分析数据来自 EBI:按MAF>1%的标准,三种疾病共约 9.5M 的 SNPs 纳入 GWAS 分析;使用 PLINK 进行分析,同时将主成分作为协变量校正结果;

3、GTEx(Genotype-Tissue Expression 基因型-组织表达)数据来自 GTEx 数据库,共有 751 个个体的 53 个组织的数据,平均每个组织类型有 220 个样本。此外,研究者还下载了 GTEx V7 中控制表达数量性状基因座(eQTL)汇总数据,用于下游分析;

4、基于 GTEx 富集分析的数据,研究者收集了健康人中 4 个显示出显著富集的组织的84种细胞类型的单细胞测序(scRNA-seq)数据(包括肺,57,020个细胞;脾,94,257个细胞;外周血,68,579个细胞;小鼠小肠,7,216个细胞),这些数据也同样来自既往报道。

最后,他们通过这些数据,得到了如下结果:

  • 鉴定出 MS 与 UC 之间的遗传相关性显著高于 MS 与 CD 的遗传相关性;
  • 鉴定出 MS 和 IBD(或UC或CD) 共有的3个 SNP;
  • 鉴定出一个候选基因 (GPR25) 与 MS 和 IBD(或UC) 的共病易感性显著相关。
  • 提示了 MS 对 IBD 和 UC 存在因果效应;
  • 肺中的 CD4 T 细胞在所有四种疾病中都有显著的 SNP 富集;肺和脾脏的 CD8 细胞毒性 T 细胞在 MS 和 CD 中显著富集;小肠末端回肠的肠上皮祖细胞和早期肠上皮祖细胞中 MS 和 UC 显著富集。

具体方法

接下来是我们关心的具体方法,一共分为七个步骤。

第一步,使用分层连锁不平衡回归分析(stratified LD score regression,LDSC,S-LDSC)方法和基线连锁不平衡模型(baseline-LD model)分别估计 MS 和 IBDs 的关联 SNP 遗传力。之后再用双变量 LDSC 计算 MS 与 IBDs 疾病间的遗传相关性(rg值),计算的方法就是将这两性状之间共享的遗传方差除以他们各自遗传力乘积的平方根。

LDSC:连锁不平衡回归分析,一种GWAS后处理策略,主要用来评估混杂和计算遗传力,通过检测连锁不平衡和检验统计量之间的回归关系来量化并区别GWAS检验统计量的膨胀是由多基因遗传引起还是由混杂偏差(如人群分层、隐形亲缘关系等)引起,回归得到的截距是比基因组控制(genomic control)更准确的校正因子。S-LDSC: 按功能注释进行遗传力分割的一种新方法,相比以往需要个体基因型的遗传力h2SNP划分方法,S-LDSC只需要GWAS汇总数据和与研究人群血统匹配的参考基因组信息即可,可用作富集分析。baseline-LD model:S-LDSC的扩展。

图2. MS 与 IBDs(每一种IBD)的遗传相关性

图2是所得到的分析结果,Y 轴表示的是经双变量 LDSC 估计后得到的每一对疾病对之间的 rg估计值。我们可以发现,无论有没有限制截距,UC-CD 之间的遗传相关性都是最高的。另外在 MS-IBDs 的遗传相关性估计中,MS-UC最高,之后是 MS-IBD,最后是MS-CD,这样的分布是符合预期的,因为 IBD 包括 UC 和 CD 两部分的病人,所以它的结果就应该是处于中间的。另外,MS-IBD 的协方差截距是 0.1,这意味着他们之间存在轻微的样本重叠。

第二步,用汇总统计资料的遗传力估计方法 ρ-HESS (Heritability Estimation from Summary Statistics,HESS) 估计 MS 与各种 IBDs 之间的局部遗传相关性(因某特定遗传区域的共享遗传方差造成的性状差异,即计算在各局部区域中 “疾病对” 的 rg值)。通过 ρ-HESS 一共分析了1699 个(近似) LD 独立的区域,区间的平均大小 ~1.5M,而且还包括了主要组织相容性复合体(MHC)的 5 个区域。

结果如图3所示,在这个图中从上到下,分别是 MS-IBD、MS-UC、MS-CD 这三个疾病对,而 Intersection 表示两病共享遗传区域的 rg 值,Neither 表示与两病均无关区域的 rg 值。在结果里可以看到,没有证据表明存在 MS 特有的区域与 IBDs 特定区域的遗传相关性存在差异。疾病特有区域(例如 MS-IBD 比较的 MS 特异位点和 IBD 特异位点)的局部遗传相关性估计值也与通过双变量 LDSC 的全基因组 rg 估计值基本一致,那么这就意味着 MS 和 IBDs 的遗传关联很可能是在整个基因组中共享遗传变异而不是在特定的基因组区域里的强相关。不过在 MS-UC 和 MS-IBD 的5个 MHC 区域上发现了显著的局部遗传相关性,但 MS-CD 没有,这可能是因为 MHC 区域对 MS-UC/IBD 的贡献大于MS-CD 所致。

图3 MS 与 IBDs 局部遗传相关性

第三步,在已知 MS 和 IBDs 有显著关联的基础上,用跨性状全基因组关联(cross-trait meta-analysis of GWAS)分析的方法识别出了与 MS-IBDs 共病发生有关联的风险 SNPs。文章在这里用到了两种互补的方法,MTAG(Multi-Trait Analysis of GWAS)和CPASSOC(Cross Phenotype Association),更加保守地优先选择那些使用两种方法都超过全基因组显著性(p<5×10−8)的SNPs。

通过这样的分析发现了三个SNPs:一个是与 MS-IBD 和 MS-CD 共病都有显著关联的 SNP (rs13428812) ,一个是只与 MS-UC 共病有显著关联的(rs116555563) 和一个只与MS-CD 有显著关联的 SNP (rs9977672),而这三个 SNP 可能参与了调节 MS 与相应 IBDs 的共有作用通路。

MTAG:一种多性状全基因组分析方法,相比常规的单性状GWAS分析,MTAG利用多性状的GWAS summary statistics进行联合分析,增强了统计分析的power;相比其他的多性状全基因组分析方法,具有更广泛的应用场景。CPASSOC:一种通过使用来自多个表型的GWAS的汇总统计数据来研究交叉表型(CP)关联的方法。

第四步,分析 MS 和 IBDs 之间的因果关系。这里一共使用了六种双向孟德尔随机化方法,包括基于广义汇总数据的孟德尔随机化(Generalised Summary-data-based Mendelian Randomisation,GSMR), MR-Egger,逆方差加权法(Inverse variance weighting,IVW),加权中位数(Weighted median),加权模式(Weighted mode)和 CAUSE 方法分别对每一个疾病对(MS-IBDs 和 IBDs-MR )之间的因果关系或基因多效性进行分析。为什么要如此费尽周折呢?这是因为通过多种方法都可以得到一致结果的因果效应将是更稳健更可靠的。在六种 MR 方法中,CAUSE 是唯一一种可以区分因果关系和基因多效性的方法。

这6种 MR 方法的结果如图4所示,其中的5种在 Bonferroni 阈值 p≤ 8.3×10−3 条件下得到了 MS 对 UC 和 IBD 有一致的因果效应证据,但还不能就此区分 MS-UC(p=0.16) 或MS-IBD(p=0.03)之间到底是因果效应还是基因多效性(p=0.03)。因此进一步做了反向分析,结果发现 IBD 或 UC 对 MS 不存在因果效应,而是符合基因多效性。而 MS 对 UC 应该是有因果效应,但遗憾的在这个分析中还不能百分百确证。因为唯一能说明因果关系与基因多效性的 CAUSE 方法分析 MS 对 UC 的因果检验时,结果不显著。在排除了 MHC 区域的影响之后,再做了一次重复分析也还是得到了,MS 对 UC 有较强的因果效应,但 MS 对 CD 的因果效应证据则比较弱。

图4. 双向MR结果,左图为六个组合在六种方法下的p值;

右图为六个组合在六种方法下的odds ratio,越大表示因果效应越强,

越集中代表结果越稳健

第五步,识别和每种或多种疾病关联最密切的组织类型。这里使用 S-LDSC 方法来估计每种疾病的 SNP 在各组织中的富集情况。

基本步骤包括:

  • 过滤 GTEx 数据库中的低质量数据的组织信息;
  • 排除非蛋白编码基因等对研究产生干扰的基因信息;
  • 计算某种基因在特定组织或细胞中的表达占比,每种组织和细胞类型筛选出前10%的基因作为该组织或细胞特异表达的基因用于下游分析;
  • 使用S-LDSC评估每种疾病 MS 和 IBDs 的 SNP 遗传力是否显著富集在特定组织和细胞。

接下来,为了探索免疫相关组织中不同疾病之间共享的遗传力富集中因组织中的重叠基因区域导致高表达所占的部分,文章里还进行了一系列的条件 S-LDSC。在条件 S-LDSC 分析中,除了对基线模型和所有基因集进行校正外,还针对每个特定的组织和疾病对其他非病灶组织中 Bonferroni 或 FDR 显著高表达的基因集进行了校正。

最后的结果如图5,可以看出 MS,IBD,UC,CD 主要在肺、脾、全血、小肠末端回肠等免疫相关组织中富集。其中 MS,IBD,UC 都在小肠末端回肠富集,而 CD 却没有。

图5. 用S-LDSC估计的组织特异性SNP遗传力富集情况。x轴上每个条带的长度反映了每种疾病在各组织中SNP遗传力富集的大小,条带越长说明有更多的证据认为遗传力富集显著,灰色和粉红色虚线分别表示FDR校正阈值(p < ~5 × 10−3)和Bonferroni校正阈值(p < ~3 × 10−4)。Origin表示根据基线模型和所有基因集进行调整的S-LDSC分析结果。Conditional表示条件S-LDSC分析的结果。

在条件 S-LDSC 分析中,所有这四个组织中 MS 和 IBD 的 SNP 遗传力富集都是显著的。而且有意思的是,在这个条件分析中,MS,IBD,CD在肺中显著富集,而 UC 不显著。MS,IBD,UC 遗传力在脾脏和小肠末端回肠显著富集,CD 不显著。这就意味着 MS-UC 和 MS-CD 共病的遗传病因可能富集在不同组织,也就是说不同组织的病变可能是不同 MS-IBDs 共病的基础。

第六步,将 S-LDSC 应用于 scRNA-seq 数据(共84种细胞类型),评估不同疾病在不同组织的特异细胞类型中的遗传力富集情况。同样,在细胞层次,在这个研究中依然使用了条件 S-LDSC。

结果发现肺中的CD4 T细胞在所有四种疾病中仍然有显著的SNP富集;肺和脾脏的CD 8细胞毒性T细胞在MS和CD中仍然显著,这意味着这两种细胞可能与二者共病的易感性相关;而小肠末端回肠的肠上皮祖细胞和早期肠上皮祖细胞中 MS 和 UC 也仍然有显著富集,这也意味着这两种细胞可能都与 MS 和 UC 共病相关,但是这项研究的小肠细胞均来自小鼠,所以研究的功效(Power)可能较弱(图6)。

图6. 细胞特异性的每种疾病SNP富集情况

第七步,为了进一步鉴别 MS 和 IBDs 之间的共同风险基因,这个研究还联合分析了MS、IBD、UC 和 CD 的 GWAS 汇总数据,以及来自 eQTLGen 联盟的全血的 cis-eQTL 汇总数据和 GTEx(肺,小肠回肠末端,脾)数据。然后使用 SMR 确定与MS、IBD、UC和CD之间有潜在统计关联的功能基因。

SMR的基本思想是:执行孟德尔随机化等效分析,使用 GWAS 和 eQTL 的 Summary statistics,以全基因组显著 SNPs 作为工具变量,测试基因表达(即exposure)和目标表型(即resuts)之间的关联,显著的 SMR 关联可以用因果效应、遗传多效性或连锁解释。SMR 用 HEIDI-outlier test 来区分因果关系/多效性与连锁,但目前还没有办法区分因果关系和基因多效性。

最终鉴定得到 MS 和 IBDs 唯一共有的基因是 GFR25(SMR显著,MS显著,IBD显著,UC显著,CD不显著)。在 MHC 区域,没有发现基因在 MS 和 IBDs 中有共享。同时还发现了既往报道的基因 DNMT3A 在 MS-IBD 和 MS-CD 的跨性状荟萃分析中显示出了相关性。

小结

全文到此就结束了,这个研究涉及到了多个不同的统计学分析方法(包括因果分析方法),分别在遗传关联研究的不同情况下进行了应用。这个文章的几个亮点如下:

  1. 使用了多种较新的统计方法来进行疾病遗传关联研究,分析很丰富,方法紧跟前沿;
  2. 使用了大规模的meta分析的summary statistics,提高了研究的power;
  3. 使用了多种孟德尔分析的方法巧妙地确定因果关系。

这个研究是一个如何开展共病遗传研究的好例子,它在分析 MS 和 IBDs 共病遗传过程中所用的思路也很有借鉴价值。我也希望通过对这个文章的解读可以给有需要的朋友们一点启发。


-------/ END /-------

参考文章

  1. Yang, Y.; et al, Investigating the shared genetic architecture between multiple sclerosis and inflammatory bowel diseases. Nature Communications2021, 12 (1), 5641.
  2. Shi, H.; Mancuso, N.; Spendlove, S.; Pasaniuc, B., Local Genetic Correlation Gives Insights into the Shared Genetic Architecture of Complex Traits. American journal of human genetics2017, 101 (5), 737-751.
  3. Turley, P. et al.; Social Science Genetic Association, C., Multi-trait analysis of genome-wide association summary statistics using MTAG. Nature Genetics2018, 50 (2), 229-237.
  4. Wang Lina, Zhang Zuofeng. Mendelian randomization approach, used for causal inferences. Chinese journal of Epidemiology2017, 38(4): 547-552.

这是我的知识星球:『达尔文生信星球』(原名:解螺旋技术交流圈),是一个我与读者朋友们的私人朋友圈。我有10 年前沿而完整的生物信息学、NGS领域的科研经历,在该领域发有多篇Nature、Cell级别的科学文章,我希望借助这个知识星球可以与更多的志同道合者沟通和交流,同时也把自己的一些微薄经验分享给更多对组学感兴趣的伙伴们。 这是知识星球上第一个与基因组学和生物信息学强相关的圈子,也是官方评定的优秀星球。希望能够借此营造一个高质量的组学知识圈和人脉圈,通过提问、彼此分享、交流经验、心得等,促进彼此更好地学习生信知识,共同提升基因组数据分析和解读的能力。 在这里你可以结识到全国优秀的基因组学和生物信息学专家,同时可以分享你的经验、见解和思考,有问题也可以向我提问和星球里的星友们提问。

0 人点赞