GWAS大家都耳熟能详, TWAS又是何方神圣

GWAS称之为全基因组关联分析，是研究复杂疾病遗传易感性的一种方法，已经广泛应用于各种复杂疾病中，识别到了许多与疾病相关的SNP位点，然而GWAS识别到的很多SNP位点很多位于非编码区，位于非编码区的基因，也由于连锁不平衡的存在，无法确切定位致病的候选基因。只基于gwas的结果，仅能给出候选的染色体区域。

为了进一步缩小候选基因的范围，科学家们发明了很多的方法，比如根据SNP调控基因表达的思想，可以进行eQTL的研究，通过GWAS和eQTL的共定位来筛选候选基因，本文要介绍的是另外一种方法TWAS。

TWAS全称如下

transcriptome-wide association studies

和GWAS类似，其分析内容都是寻找性状相关联的基因。不同的是，gwas是全基因组，而TWAS则是全转录组。TWAS称之为全转录组关联分析，分析思路如下图所示

分为了三步

第一步，基于reference panel来建模，构建SNP和基因表达量之间的关系。reference panel中的样本同时拥有基因分型和表达量的结果，根据距离确定基因对应的SNP位点，比如选择基因上下游500kb或者1M范围内的SNP位点，拟合这些SNP位点和基因表达量之间的关系
第二步，用第一步建模的结果来预测另外一个队列的基因表达量，这个队列中的样本量只有GWAS结果，称之为gwas cohort，这一步可以看做是对gwas cohort中的基因表达量进行填充
第三步，用填充之后的基因表达量来分析基因和性状之间的关联

TWAS已经成功应用于精神分裂症，乳腺癌，前列腺癌等疾病中，相关的数据分析软件也有很多，部分列表如下

PrediXcan
S-prediXcan
Fusion
UTMOST

PrediXcan适用于gwas cohort只有单个样本的情况，后三个软件则适用于gwas cohor为大量样本的gwas summary数据。还要一点需要注意，考虑到基因表达的组织/细胞类型的特异性，传统的TWAS方法要求reference panel和gwas cohort对应的组织/细胞类型相同，而UTMOST则进行了创新，通过整合多个不同组织的reference panel的数据，构建了数据库，允许对不同组织或细胞类型的gwas cohort进行基因型填充。

后续会介绍软件的详细用法，更多的知识推荐阅读以下两篇文献 1. Integrative approaches for large-scale transcriptome-wide association studies 2. Opportunities and challenges for transcriptome-wide association studies

panel reference scale summary

0 人点赞