eQTL hotspot : eQTL热点区域

2019-12-18 17:56:06 浏览数 (2)

众所周知,eQTL分为了cis-eQTL和trans-eQTL两种作用方式,cis模式下只能调控临近的基因,而trans模式突破了距离限制,在该模式下一个eQTL位点潜在的靶标基因数量大大增加。在eQTL-gene构成的调控网络中,eQTL节点的degree并不是均匀分布,往往少数几个位点的degree很高,表示这些位点调控了大多数的基因,我们将这些调控了多个基因的eQTL位点称之为eQTL hotspot。

关于eQTL hotspot的分析和可视化,可以参考以下文章

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-018-4871-y

本文通过eQTL分析来识别与肌内脂肪含量, 即IMF这一性状相关的调控区域。首先通过matrixEQTL软件进行eQTL分析,采用默认的距离阈值,SNP与gene的距离小于1Mb以内的为cis-eQTL, 大于1Mb的为trans-eQTL,识别到了1268个cis-eQTL, 10334个trans-eQTL, 通过之前介绍的cis-trans plot展示所有eQTL在染色体上的分布

上图中横坐标和纵坐标分别表示SNP和gene在染色体上的位置,图中的散点表示eQTL-gene对,其中位于对角线附近的点为cis-eQTL, 其他区域的点为trans-eQTL。

以每个eQTL位点调控的基因数目为指标,来识别eQTL hotspot,如下图所示

水平的蓝色虚线表示基因个数的阈值,文章中采用的是119,横坐标为eQTL位点的染色体位置,纵坐标为每个eQTL位点对应的靶基因个数,箭头标记的地方就是预测出来的eQTL hotspot。

初始的eQTL hotspot就是几个独立的SNP位点,考虑到SNP位点之间的连锁,分析这些位点之间的LD程度,将连锁程度高的位点合并,归于同一个区域,这些区域就是最终识别到的eQTL hotspot region。

对于hotspot region, 需要进行后续的功能注释,进一步分析其功能。可以对这些区域覆盖的基因进行GO/KEGG等功能富集分析,也可以注释这些区域中包含的转录因子,通过转录因子来联通eQTL和其靶基因。本文就是分析了eQTL hotspot对应的转录因子,找到了3个转录因子,可视化如下

采用circos图来绘制eQTL和其靶基因的调控关系。对于eQTL分析而言,识别到eQTL位点只是第一步,通过eQTL hotspot区域的功能注释来研究eQTL的功能作用机制,才是真正具有生物学意义的数据分析。

·end·

—如果喜欢,快分享给你的朋友们吧—

0 人点赞