解密Hi-C数据分析中的分辨率

2019-12-19 15:57:10 浏览数 (1)

欢迎关注”生信修炼手册”!

Hi-C基于传统的染色质构象捕获技术,在DNA连接时引入生物素标记分子,标记交联的染色质,然后富集带有生物素标记的junction reads, 再结合高通量测序和下游的生物信息学分析,可以在全基因组范围内研究染色质的空间互作关系。

在Hi-C文库中,我们得到的是互作染色质形成的junciton reads, 通过将这些reads 比对到参考基因组之后,可以分析染色质之间的互作。以下图为例

图中蓝色和红色对应的染色质区域有互作,黑色和黄色对应的染色质区域有互作,在对应的Hi-C文库中,我们可以得到如下所示的junction reads

将这些reads正确比对到参考基因组上之后,就可以确定对应的染色质区域之间存在互作,而对应的junction reads的数目越多,则代表两个区域交互作用发生的频率越高。

对于所有区域的互作信息,通常会用一个交互矩阵interaction matirx来表示,该矩阵是一个方阵,每一行或者列都代表一个染色质区域,方格的颜色代表代表两个区域交互作用的强弱,示意如下

在构建矩阵的过程中,我们首先需要确定每一行代表的染色质区域的范围,互作的片段是通过酶切来得到的, 理论上存在10的11方种唯一的酶切片段。如果想要精确分析所有酶切片段之间的交互,首先需要足够的测序深度,涵盖所有类型的酶切片段,这就要求非常庞大的测序数据量,其次对于如此庞大的交互矩阵,数数据分析阶段对于计算资源的消耗也是一个天文数字。

为了有效利用Hi-C文库中的信息,科学家提出了binning的概念,将基因组划分为等长的窗口,这样的窗口称之为bin, 利用窗口内reads的分布来研究不同窗口之间的互作关系。这样的处理相比最原始,最直接的染色质互作数据,其分辨率确实是有一定程度的丢失,但是基于全基因组范围,仍然能够挖掘出很多有效信息。

bin窗口的长度称之为分辨率。如果分辨率为1Mb, 以人类基因组为例,在交互矩阵中会有3000左右的行。bin窗口的长度越小,则基因组区域的划分越细致,对于染色质三维构象的研究的就越精细。

不同分辨率对于测序量的要求不同,适用的场景也不同。基于不同分辨率的Hi-C数据,陆续发现了A/B compartments, TAD拓扑结构域,染色质环等空间结构。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

0 人点赞