GWAS与Post-GWAS
- 「GWAS」:因果关联
GWAS(Genome-wide association studies) 是 20 世纪最后 25 年由假设驱动的候选基因关联研究(CGAS)演变而来的。随着技术的发展,无偏见的全基因组搜索成为可能。随着技术的发展,无偏见的全基因组成为可能。然而,与候选基因关联研究一样,这些研究最初也是为了产生两类有价值的知识:首先,研究人员希望发现疾病起源的潜在分子机制,特别是确定所有相关基因和基因变异(即疾病因果关系)。
其次,基因的关联有望为公共和个人健康决策提供有用的诊断标记。
全基因组关联研究(GWAS)通过确定可用作工具变量的遗传变异,推动了孟德尔随机分析法的兴起。
全基因组关联研究还提供了数据集,用于估计基因与暴露和结果的关联,从而进行高效的双样本孟德尔随机分析。
随着全球基因组研究的规模和范围不断扩大,这将继续推动对已确定的风险因素进行更大规模、更详细的孟德尔随机化分析,同时也能对新的暴露因素进行分析,并为基因特异性分析提供新的遗传变异。
- 「post-GWAS」:从关联研究转向功能研究
尽管现在已经有了大量基于 GWAS 的了解,但post- GWAS 研究仍待进一步探索。
这项研究将使我们对因果关系和风险基因识别有更深入的理解。
以帕金森病为例,我们要问:风险基因位点是如何、在哪里以及何时对疾病产生影响的?
「post- GWAS 研究在GWAS的基础上,更能明确疾病的风险位点及该位点潜在致病变异的主要分子机制,即探索被称为因果变异的特定易感基因座背后的生物学机制。」
这可能是未来生物信息学和孟德尔随机化结合的一个契机。
遗传变异越多越好吗?
虽然基于与风险因素具有可证实生物学相关性的基因变异的孟德尔随机分析最为可靠,但基于全球基因组研究中大量基因变异的分析也能为因果假设提供重要证据。随着更多与复杂性状相关的基因变异被发现,进行孟德尔随机化的可能性也在增加。
「每增加一个变异都会增加暴露变异的解释比例,从而有可能提高后续孟德尔随机化分析的效力。」
「然而」,在纳入越来越多的变异时,可能需要在精确度和偏差之间做出权衡。
如果与暴露相关性不同的变异的多生物效应大小相似,那么能解释暴露变异的变异所占比例较大,就不易受到多生物效应的影响。
因此,在分析中逐渐增加越来越多的变异,信号量会越来越小,而潜在的噪音则会相应增加。
因此,虽然全球基因组分析的规模不断扩大,使得基因发现的范围不断扩大,从而可以对更多性状进行充分有力的孟德尔随机化分析,但在一定程度上,这对特定性状的多基因孟德尔随机分析的益处可能是有限的。
此外,如果更多变异的增加导致变异特异性估计值的异质性增加,那么在随机效应模型下,因果关系估计值的精确度(以及分析的功率)可能会降低。
组学:海量风险因素
组学
涵盖了细胞生物学及其它领域中因高通量分析技术的发展而产生的广泛研究领域。
组学领域的例子包括基因表达和甲基化研究(表观组学)、蛋白质研究(蛋白质组学)、脂质研究(脂质组学)、转录因子研究(转录组学)和代谢物研究(代谢组学)。表观遗传标记物、蛋白质、转录因子和代谢物之间的关系与表型暴露和结果之间的关系一样,会受到混杂因素和反向因果关系的影响。
因此,在孟德尔随机分析中,这些测量值均可用作暴露因子。由于它们更接近遗传密码,人们希望遗传变异能比传统流行病学风险因素更多地解释这些组学测量的变异。
虽然组学数据有一些共同的特点,但每个研究领域对孟德尔随机化调查都有其特定的挑战。一个共同的特点是,测量结果可能代表一组具有共同遗传预测因子的高维相关暴露变量。
例如,相邻基因的基因表达往往有共同的预测因子,而且同一基因变异已被证明可预测多种血脂亚型。这可能需要采用多变量孟德尔随机分析方法。
自由假设:结局任你想象
除了大量的风险因素外,还可以对大量的结局变量进行分析。
研究人员可以在每次分析中使用相同的遗传变异,依次测试遗传变异与每种结局(你能想到的)的关联。
一方面,这可以对暴露干预的广泛结局进行调查。从公共卫生的角度来看,这一点非常重要,因为可能有必要平衡不同方向的影响。例如,IL1RN 基因区域变异的遗传关联与类风湿性关节炎和冠心病的关联截然相反。
然而,多重测试是解释此类分析的潜在限制。
在独立数据集中验证结果非常重要,尤其是对全表型关联研究而言,在这种研究中,以 "自由假设 "的方式考虑遗传变异与大量结果的关联。
生物银行:海量参与者
生物银行是一项基于人群的大型横断面或纵向研究。
生物银行的设计通常不考虑特定的研究问题,而是收集大量变量的数据,包括表型变量和疾病事件。
一些生物银行(包括英国生物银行、FinnGen 和日本生物银行)已将个人的基因数据连接起来,为单个样本的孟德尔随机化研究提供了便利。
生物银行数据的「一个特别优势」是可以进行非线性孟德尔随机分析,因为这需要相同个体的遗传变异、暴露和结果的个体级数据。「另一个优势」是可以对特定人群进行亚组分析,如性别分析或非吸烟者分析。分析可以比较在同一数据集中获得的不同结果的估计值,使这种比较更易于解释。
巧妙的设计:流行病学家的作用
目前的MR发展无疑有很多优势:孟德尔随机分析可以在大型数据资源中快速、轻松、透明地进行。然而,不假思索地进行孟德尔随机分析也越来越容易。套用公式➡进行全基因组关联研究,提取所有全基因组显著变异,进行双样本分析**--当然可以增加发表论文的数量。
「但是,这样的分析是否能被视为对科学文献的贡献,因为它可能已经由一台机器在大型自动流水线上针对大量风险因素和结果进行了分析?」
因此,分析师的角色不可或缺。
虽然孟德尔随机化过程中的一些方面可以实现有效的自动化,无论是高通量算法还是努力遵循最佳实践的善意的人类研究人员,但每个流行病学问题都是不同的,需要思考如何选择数据集和聚焦分析计划,以产生最可靠的推论。
此外,在解释调查结果和证明因果效应的证据程度时,还需要对背景进行判断,尤其是当不同方法或分析方法得出的估计结果相互矛盾时。
在孟德尔随机调查中,非常规分析设计可以提供更多证据。利用亲代和子代基因型的跨代设计已被开发出来,这种设计可对子代的变量进行调整,以推断亲代暴露对子代结果的影响。
另外,父母的疾病结果也被用来替代后代的疾病风险(全基因组替代分析)。子代基因型与亲代结果之间的关联将弱于同一个体基因型与结果之间的关联,但如果其中一种关联存在,另一种关联也应存在。这种设计的初衷是最大限度地增加老年疾病的病例数,但其另一个优点是避免了选择偏差,因为父母的死因不太可能影响后代数据是否可用于分析。还有人提出了使用双胞胎数据的分析方法,结合了双胞胎和孟德尔随机研究设计的优势。
最后,家系内孟德尔随机化方法已被开发,这种方法不易受人群分层的影响,因为它们在同胞兄弟姐妹对中进行比较。孟德尔随机化的趋势是依靠统计方法提供可靠的因果推论,而流行病学中的因果研究传统上依靠的是设计而不是复杂的统计方法。
将这两种方法结合起来需要独创性,但却能带来更多启发。
也许有一天,机器学习会破解如何以最佳方式设计调查,并对不同来源的证据进行三角测量。但目前为止,「孟德尔随机化仍然是一个聪明的人类分析师比机器更有优势的领域」。