基因调控网络(gene regulatory network-GRN)分析基础概念

2024-08-21 07:59:31 浏览数 (1)

基础背景:

染色质、转录因子和基因之间的相互作用产生了复杂的调控回路,可以表示为基因调控网络(gene regulatory nerworks,GRNs)

1. 染色质(Chromatin)

染色质是由DNA和蛋白质(主要是组蛋白)组成的复合结构。它是细胞核中DNA的主要存储形式。在真核细胞中,染色质的状态可以是高度压缩的异染色质或相对松散的常染色质,这种状态会影响基因的表达。

作用:

● 结构支持:染色质为长链DNA提供了结构支撑,使其能够紧密包装在细胞核中。

● 基因调控:染色质的紧密程度会影响基因的可及性。松散的染色质(常染色质)通常与活跃的基因表达相关,而紧密的染色质(异染色质)通常与基因沉默相关。

● DNA修复与复制:染色质在DNA复制和修复过程中起着关键作用,通过调整染色质状态,细胞可以更有效地处理这些过程。

2. 转录因子(Transcription Factor, TF)

转录因子是一类能够结合到特定DNA序列(通常在基因启动子或增强子区域)的蛋白质。这些因子通过激活或抑制RNA聚合酶的结合和启动,从而调控基因的转录过程。

作用:

● 基因调控:转录因子通过结合到特定的DNA序列,促进或抑制基因的转录,这直接影响了基因的表达水平。

● 细胞功能与身份:特定的转录因子组合决定了细胞的功能和身份。例如,在免疫细胞中,不同的转录因子调控着不同类型免疫细胞的发育和功能。

● 响应信号:许多转录因子是信号通路的末端效应器,它们响应细胞外或细胞内信号,调控基因表达以适应环境变化。

3. 基因(Gene)

基因是DNA的一段序列,包含了产生特定功能产物(如蛋白质或RNA)的信息。在编码蛋白质的基因中,基因的序列被转录为mRNA,然后翻译为蛋白质。

作用:

● 遗传信息存储:基因携带了所有生物所需的遗传信息,负责生成所有的蛋白质和功能RNA。

● 表达与调控:基因的表达受多种因素调控,包括染色质状态、转录因子、非编码RNA等。这种表达调控决定了细胞的行为和功能。

● 进化与变异:基因是遗传变异的基本单位,通过基因突变和重组,通过基因突变和重组,生物体能够适应环境变化。

三者之间的关系与相互作用

● 染色质与基因:染色质的状态决定了基因的可及性。基因位于染色质中,当染色质处于开放状态时,转录因子更容易结合到基因的启动子区域,启动基因的转录。

● 转录因子与基因:转录因子直接作用于基因,通过识别特定的DNA序列,启动或抑制基因的转录。这一过程受到染色质结构的影响,染色质的开放或关闭会影响转录因子的结合。

● 染色质与转录因子:染色质的结构可能会阻碍或促进转录因子对基因的访问。一些转录因子本身也能调控染色质结构(如通过招募染色质重塑复合物),从而影响基因表达。

以上三者就是我们需要了解的基因调控网络的基本概念。

基因调控网络

接下来我们要知道一个基因要发生转录,那么这个基因的转录因子就需要去结合到这个基因上游的某些位置上去,这些被转录因子识别结合并介导转录的激活/抑制的位点一般会有转录因子结合域(motif, transcription factor binding motif) ,motif的本质就是一段DNA序列,但是一段有特征的DNA序列,比如它的某些碱基会有特定的序列模式。这样的 DNA序列就叫做顺式调控元件(CRE,Cis-Regulatory Element)

当然我们也要知道有了转录因子/motif其实还不够,还要涉及到结合部位的状态,这个状态就收到很多因素的影响了,比如染色质活性?空间位置结构?表观遗传改变(甲基化等各种化)?等等。当然这里只是作为一个提醒,我们在做分析/实验的时候要心中有数。

因此转录所呈现出来的结果是基于上游所有信号的综合影响,理论上而言,如果需要展示更多影响转录调控的因素的话,那就是说要把调节转录的因素都要去探索一下,比如可以去做甲基化的检测,做染色质的ATAC-seq,当然更应该做一下转录因子的chip-seq等。因此我们用转录组数据去预测转录因子的变化时,虽然一定是无法得到十分精确的结果,但这也无疑是给无法进行多组学研究的广大同道们的福音了。

那么用转录组数据去预测GRN的分析分析流程的大致要求和步骤如下:

1、构建基因之间的共表达网络,毕竟如果两个基因之间是存在调控关系的话,那么两个基因之间必定是存在相关性的。

2、明确TFs,进一步需要去区分共表达网络中的分子哪些是TFs,只要知道哪些是转录因子了,就能够区分上游分子和下游分子。

3、明确转录因子结合位点,如果只知道转录因子和非转录因子的话那两者未必会存在结合调控,因此就必须知道在靶基因上游位置里面存在结合位点,这些结合位点里就存在一个/多个串联的motif,当得到了转录因子和motif配对关系的话,就可以是的后续构建的调控网络信息更加的准确。

基因调控网络的应用场景

1、探索特殊的细胞类型和状态的调控网络,比如怎么维持不同细胞亚群的“身份”;

2、探索细胞的随着时间连续的变化,在这种连续变化的过程中,转录因子调控网络会发生什么变化;

3、探索在不同的情况下,转录调控网络是怎么变化的,比如健康人和病人。

分析前文件准备

在正式分析之前,我们需要去cisTarget databases(https://resources.aertslab.org/cistarget/databases/)下载一些文件

这里有一些解释信息和下载地址。

那么为什么选择上游500bp和下游100bp以及上下游各10kb的范围进行分析,这是基于基因调控机制的生物学理解和经验积累的结果。以下是这两个特定范围的原因和它们在基因调控分析中的意义:

1、上下游10kb (TSS /-10kb)

这个区域涵盖了基因转录起始位点(Transcription Start Site,TSS)上游10kb到下游10kb的总共20kb的区域。它是围绕TSS的一个相对较大的区域,包括TSS上游的增强子区域以及下游可能存在的调控元件。

用途:

这个区域适合捕捉远程调控元件的影响,这些元件可能通过染色质环的方式与TSS区域接触,从而调控基因表达。

远程调控:有些基因的表达受到远距离调控元件(如增强子)的显著影响,这些调控元件通常位于TSS附近的几千到数万碱基对之内。

全面调控分析:为了更全面地了解基因调控网络,研究者可以使用较大范围的上下游区域(如TSS /-10kb)来识别潜在的调控元件。

2、上游500bp和下游100bp (500bpUp100Dw)

这个区域涵盖了TSS上游500bp到TSS下游100bp的总共600bp的区域。它集中在TSS附近的一个较小的范围,主要包含基因的启动子区域。

用途:

这个区域特别适合于分析与基因启动直接相关的核心调控元件和转录因子结合位点。

启动子调控:对于大多数基因来说,启动子区域(TSS附近几百个碱基对)是最关键的调控区域,因为它直接决定了RNA聚合酶和转录因子能否结合并启动转录。

精准调控分析:在需要精确识别哪些转录因子可能在TSS附近调控基因表达时,选择一个更小、更集中的区域(如500bp上游和100bp下游)能够提供更高的分辨率。

还需要去这个网站https://resources.aertslab.org/cistarget/下载一些文件

要下载hgnc的文件

这个网站提供的文件是 motif 到转录因子(Transcription Factor, TF) 的注释文件。这些文件列出了 DNA motif 与转录因子之间的映射关系,用于基因调控网络的研究和分析。以下是这些文件的主要信息和用途的详细说明:

1. Motif 注释文件:

● Motif 是特定的 DNA 序列模式,通常是转录因子的结合位点。这些文件包含了每个 motif 与可能结合的转录因子之间的映射关系。

● 这些映射关系基于特定物种的数据,因此文件分为不同物种版本,如 人类(hgnc)、小鼠(mgi)、果蝇(flybase) 和 鸡(chicken)。

● 每个文件内,可能有数千个 motif,每个 motif 都会对应于一个或多个转录因子。

2. 版本信息:

● v8, v9, v10 是 motif 集合的版本号,每个版本基于不同的研究和数据库更新。最新的 v10 版本基于 2022 年的 SCENIC motif 集合。

● 不同版本之间的区别通常在于使用的数据库和算法更新,这些更新会影响 motif 到 TF 映射的精度和覆盖范围。

3. 物种特异性:

● 不同的物种有各自特异性的 motif 和转录因子,因此文件根据物种进行了分类。

● 人类(hgnc)、小鼠(mgi)、果蝇(flybase) 和 鸡(chicken) 的注释文件分别对应于这些物种中的 motif-TF 映射关系。

此外还需要去

https://github.com/aertslab/pySCENIC/blob/master/resources/hs_hgnc_tfs.txt

或者

https://resources.aertslab.org/cistarget/tf_lists/

TF因子列表下载下来

最后就会得到四个文件,分别是两个起始位点信息文件一个motif和TFs映射关系的文件,以及一个转录因子列表文件

需要提醒的是,为什么没有限定文件的名称,因为其是有很多版本和渠道去获得这些文件~ 总之最后得到了具有上述信息的这4个文件就可以进行后续的分析了~

其中分析也有很多种,后续会整理和展示最常用的SCENIC分析~

参考资料:

1、Gene regulatory network inference in the era of single-cell multi-omics. Nat Rev Genet. 2023 Nov;24(11):739-754.

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -

0 人点赞