GWAS称之为全基因组关联分析,是研究复杂疾病遗传易感性的一种方法,已经广泛应用于各种复杂疾病中,识别到了许多与疾病相关的SNP位点,然而GWAS识别到的很多SNP位点很多位于非编码区,位于非编码区的基因,也由于连锁不平衡的存在,无法确切定位致病的候选基因。只基于gwas的结果,仅能给出候选的染色体区域。
为了进一步缩小候选基因的范围,科学家们发明了很多的方法,比如根据SNP调控基因表达的思想, 可以进行eQTL的研究,通过GWAS和eQTL的共定位来筛选候选基因,本文要介绍的是另外一种方法TWAS。
TWAS全称如下
transcriptome-wide association studies
和GWAS类似,其分析内容都是寻找性状相关联的基因。不同的是,gwas是全基因组, 而TWAS则是全转录组。TWAS称之为全转录组关联分析,分析思路如下图所示
分为了三步
- 第一步,基于reference panel来建模,构建SNP和基因表达量之间的关系。reference panel中的样本同时拥有基因分型和表达量的结果,根据距离确定基因对应的SNP位点,比如选择基因上下游500kb或者1M范围内的SNP位点,拟合这些SNP位点和基因表达量之间的关系
- 第二步,用第一步建模的结果来预测另外一个队列的基因表达量,这个队列中的样本量只有GWAS结果,称之为gwas cohort, 这一步可以看做是对gwas cohort中的基因表达量进行填充
- 第三步,用填充之后的基因表达量来分析基因和性状之间的关联
TWAS已经成功应用于精神分裂症,乳腺癌,前列腺癌等疾病中,相关的数据分析软件也有很多,部分列表如下
- PrediXcan
- S-prediXcan
- Fusion
- UTMOST
PrediXcan适用于gwas cohort只有单个样本的情况,后三个软件则适用于gwas cohor为大量样本的gwas summary数据。还要一点需要注意,考虑到基因表达的组织/细胞类型的特异性,传统的TWAS方法要求reference panel和gwas cohort对应的组织/细胞类型相同,而UTMOST则进行了创新,通过整合多个不同组织的reference panel的数据,构建了数据库,允许对不同组织或细胞类型的gwas cohort进行基因型填充。
后续会介绍软件的详细用法,更多的知识推荐阅读以下两篇文献 1. Integrative approaches for large-scale transcriptome-wide association studies 2. Opportunities and challenges for transcriptome-wide association studies