【Mol Cell】解析顺式调控密码(二)

2023-08-29 19:44:26 浏览数 (2)

从DNA序列到转录因子结合

转录因子(TF)结合的基序(motif)

顺式调控密码的最小单位——类似于遗传密码的密码子——是转录因子结合位点(TFBS)。转录因子通常包含结构化和进化保守的DNA结合域(DBD),它们识别并结合一个6-12个碱基对的DNA序列,称为转录因子的“基序”。转录因子基序通常用序列标志或位置权重矩阵(PWM)描述,以表示转录因子结合特异性的退化性。DBD的保守性和高通量测量转录因子序列特异性的方法使得约有1600个已编目的转录因子在人类中被识别,并确定了这些已知转录因子的结合基序。然而,转录因子结合基序无法完全预测大多数转录因子在体内的DNA结合。虽然大多数TFBS至少包含对其首选基序的部分匹配,但大多数转录因子仅在基因组的一小部分基序上发生结合。尽管可以通过包括核苷酸围绕核心基序或使用更复杂的序列偏好表示(如二核苷酸基序和DNA形状),来提高对某些转录因子基因组结合的预测,但对于大多数转录因子来说,对体内结合的最佳预测因子是染色质的可访问性,可以通过DNase-seq或ATAC-seq等高通量测序方法来测量。这种观察结果主要归因于DNA上核小体的存在,这些核小体必须被称为“先驱”因子或共结合转录因子组合所取代或排除。

转录因子在核小体上结合

DNA的先驱因子概念被提出来解释那些在发育过程中在紧密染色质状态下结合增强子序列的转录因子。因此,按照最初的定义,先驱因子能够同时访问与核小体结合的DNA并促进其他转录因子与增强子的结合能力。因此,先驱因子与能够通过过度表达诱导细胞重编程的转录因子混合物相关联,例如OSKM(Oct4、Sox2、Klf4和c-Myc)多能性因子,因为它们的核小体结合能力被认为使它们能够在其本来的细胞状态之外发挥功能。转录因子在体外结合核小体DNA的能力和在体内结合紧密染色质的能力存在显著差异,即使在具有保守的DNA结合域的同源基因中也存在差异。尽管开创性活动通常被描述为转录因子的二元特征,即允许其结合到任何同源基序,无论核小体的存在情况,但有多种证据表明开创性活动是多样的,并且高度依赖于上下文。首先,先驱因子涵盖了许多转录因子家族(即蛋白质结构),并且它们可能具有不同的核小体结合位置偏好(例如靠近核小体末端、在对称轴上或沿DNA主沟的暴露区段周期性结合)。其次,先驱和非先驱转录因子的目录远未完整,并且对于精确定义仍然存在不确定性。最近的研究表明,一个经过充分研究的先驱因子FOXA1和一个被描述为非先驱因子的转录因子HNF4A,当过度表达时能够同样有效地在正常情况下两者都不表达的上下文中打开染色质,这种效果取决于转录因子的表达水平。虽然开创性机制通常涉及一些直接功能,例如通过扭曲DNA使其从组蛋白中解开,但先驱转录因子也可以招募核小体重塑酶。关于先驱活动是否依赖于重塑酶的招募以及重塑酶是否能够使不结合核小体的转录因子打开染色质的问题仍有待研究。然而,最近对造血转录因子PU.1进行的体外研究初步证明,先驱因子实际上可以促进特定DNA位点的核小体重塑酶的活性,这种活性依赖于PU.1的无序区域(IDR),而不是其DNA结合域。此外,先驱因子的活性也依赖于上下文:即使是像OCT4或SOX2这样的先驱转录因子,在不同的细胞类型中通常结合到不同的位点,反映了与其他转录因子的合作对于稳定结合至少是必需的。因此,核小体上的DNA结合机制和程度似乎是控制转录因子能够结合哪些DNA序列的几个调控层之一。

转录因子之间的合作共同结合DNA

先驱因子模型的一个关键(且重要的非排他性)是多个转录因子通过在大约150个碱基对的核小体距离内结合共同竞争核小体。尽管多个共结合的转录因子之间的合作性并不是新的概念,但对于这种合作性的具体性质仍存在争议。对INFb增强子的初步研究表明,不同的转录因子必须以紧密间距结合才能允许介导合作性的蛋白质-蛋白质相互作用。然而,后续研究揭示了不同增强子在不同排列方式中具有不同的结合激活因子组合,与更灵活的核小体介导的合作性相一致。即使在最初的增强子中,转录因子之间的蛋白质-蛋白质接触也很少。相反,许多转录因子通过DNA介导的合作性合作,这些转录因子在特定的排列和间距下相邻地结合以稳定共同的DNA结合。

该领域面临的一个主要挑战是评估这些合作性形式(核小体介导、蛋白质-蛋白质相互作用和DNA介导)在天然工作的增强子和其他顺式调控元件中的相对程度。通过对核小体缺失区域内转录因子模体位置的分析,发现不同的转录因子倾向于出现在不同的位置,例如已知与核小体结合因子富集在核小体缺失区域的边缘,这表明转录因子发挥着不同的功能角色。最近的技术进步使得在不依赖于特定模体排列或间距富集的情况下,可以更好地推断合作性相互作用。卷积神经网络和其他深度学习模型可以从定量转录因子结合、染色质可及性或增强子报告基因实验数据的训练中全新地学习合作性相互作用,而且结果可以解释。这些研究通过在计算中系统地测试合作性的距离依赖性,表明转录因子的合作性相互作用是多样且常见的。转录因子可以倾向于与特定伙伴进行近距离结合,合作性会随着距离的远近而迅速或缓慢地衰减,或者它们可能更喜欢彼此之间有一定的距离。大部分合作性似乎受到150个碱基对的核小体范围的限制(平移位置),有时会在DNA双螺旋的10.5个碱基对的周期性上出现(旋转位置)。除了合作性模式的变化,合作性的程度可以因转录因子而异。通常合作性较低的转录因子可能更具有强大的DNA结合能力或更强的先驱活性,使其能够独立于合作伙伴结合;而结合能力较弱的转录因子(例如常弱结合的家族中的Nanog)则更依赖于合作性。这些结果表明,虽然只有少数转录因子必须处于特定的位置或方向才能发挥功能,但多样的转录因子合作性形式在定量上调节结合和功能。

尽管深度学习方法在系统检测合作性方面非常强大,但它们并不涉及机制问题。在某些情况下,距离尺度暗示了某些机制,例如大约10.5个碱基对的周期性表明转录因子共同结合DNA双螺旋的同一面,但是否这些转录因子依赖于蛋白质-蛋白质相互作用则需要进一步的实验证明。虽然一些转录因子可以形成强烈的蛋白质-蛋白质相互作用,比如碱基螺旋-环-螺旋(bHLH)、碱性亮氨酸拉链(bZIP)和活化蛋白(AP-2)因子家族中的家族成员之间的必需DNA非依赖性二聚化,但其他相互作用则较弱且更难以准确识别。转录因子的无序区域(在进化上不太保守)更可能参与较远范围的合作性和更广泛的DNA特异性,超越结合模体。交换这些无结构区域的实验表明,它们在确定与其他转录因子的松散合作性(即核心模体附近的其他转录因子富集)或限制结合哪个子集的模体实例的基因组区域偏好方面起到了作用。 新的实验方法也有助于对转录因子合作性进行机制上的理解。单分子测距方法利用非自然的DNA甲基转移酶以单分子分辨率确定核小体和转录因子的结合状态,证明DNA的同时共结合对转录因子来说是常见的,即使对于不直接结合相邻位置的转录因子也是如此。近距离标记方法,例如BioID,提供了更传统的免疫沉淀方法的替代方案,并且可以检测到更短暂的相互作用。

TF是浓度和修饰的函数(Function) 为简化起见,我们迄今为止的讨论将转录因子与DNA的结合视为在大多数情况下在一部分模体匹配中发生的二元事件。然而,与tRNA不同,它们几乎只结合其特定密码子并很少结合其他密码子,转录因子的结合并没有那么明确。除了与密切匹配其模体的高亲和力位点结合外,转录因子还结合许多不完全匹配的模体,被称为低亲和力结合位点。这种结合位点亲和力的变化会定量影响转录因子的占位(转录因子在该位点的时间百分比)和停留时间(单个结合事件的持续时间)。低亲和力位点仍然可以发挥功能,要么通过多个弱结合位点之间的合作作用,要么通过与其他转录因子结合位点的最佳合作性(间隔)。 事实上,这些位点的低亲和力对于它们的正确功能特异性非常重要,因为增加它们的亲和力可能会降低对应顺式调控元件的组织特异性。这一观察支持了一个观点,即结合位点亲和力是细胞对有效转录因子浓度做出差异响应的主要机制,高亲和力位点在低浓度下就能结合转录因子,但低亲和力位点需要更高的转录因子水平。同样,减弱转录因子与DNA结合强度的翻译后修饰(如乙酰化、磷酸化或小泛素样修饰(SUMOylation))在某些情况下可以选择性地减少对低亲和力位点的结合,逆直觉地增加高亲和力位点的转录活性。这种将转录因子活性量化为精确水平和状态的定量模型得到了最近的研究支持,该研究通过实验性地将转录因子滴定到不同剂量中进行,结果显示最剂量敏感的可访问基因组区域是最高亲和力的结合位点。 虽然已经描述了功能性低亲和力位点的个别案例,但确定它们在多少情况下以及在哪些情况下发挥功能仍然具有挑战性。一个潜在的挑战是,即使破坏高亲和力位点,也往往导致边缘表型;因此,检测低亲和力位点的功能可能需要整个有机体读出,而不是单个细胞类型中的表达水平。例如,对果蝇胚胎增强子的系统突变分析显示,在增强子内的大多数碱基,包括强转录因子模体匹配之外的碱基,在突变后都引起可察觉的表型。另一个挑战是,创建或破坏转录因子结合位点必然会影响重叠模体,这可能比创建或破坏的模体具有更强的影响。弱结合位点可能个别具有微小的效应,但在基因调控中共同发挥重要作用。 需要注意的是,尽管TF与DNA的结合是顺式调控的主要机制,但在强转录因子结合位点之外的序列也可能对转录调控有贡献,而不会直接影响TF结合亲和力。例如,序列特性可以影响内在核小体定位或影响RNA聚合酶II(RNA Pol II)的延伸速率。 对于TF丰度的何种水平足以发挥功能(以及哪些功能,例如结合低亲和力位点与高亲和力位点相比),仍然不清楚。通常通过RNA水平来测量TF表达,而这些水平受到翻译、蛋白稳定性以及有时蛋白质定位或修饰的调控。确定相关TF RNA表达水平的一种可行方法是比较不同细胞类型中开放染色质中的TF水平和模体富集;然而,这种方法无法解决共同表达的同源转录因子可能结合相同模体的问题,或者可以调节TF构象和DNA结合的其他相互作用伙伴的问题。与此同时,基于靶基因的推断TF活性仍受到目标基因信息不足的限制。最终,对TF水平和状态进行更精确的滴定将有助于了解TF功能与定量TF丰度的关系。 TF与DNA的结合构成顺式调控代码的第一层,TF到结合位点的代码定义了被组织成称为顺式调控元件的簇的关键“单词”。代码的下一层确定了这些元件的转录功能,即这些“句子”的含义。

未完待续

文章来源:doi.org/10.1016/j.molcel.2022.12.032

0 人点赞