摘要
生物学的一个主要目标是揭示控制基因在给定基因组和细胞状态下何时以及以何种程度进行转录的顺式调控密码。在这里,我们讨论了影响转录输出如何由DNA序列和细胞环境编码的主要调控层次。首先,我们讨论了转录因子如何以剂量依赖和协同的方式与特定的DNA序列结合。然后,我们继续讨论辅助因子如何促进转录因子的功能,并调节增强子、沉默子和启动子等模块化顺式调控元件的活性。接下来,我们考虑了这些不同元件在调控景观中的复杂相互作用,尽管我们对它们的相互作用还了解得不完全,以及它们与染色质状态和核组织的关系。我们提出了一个在机械层面上受到启发的、定量化的转录调控模型,它将整合这些多个调控层次,最终有助于我们解读顺式调控密码。
背景介绍
生物学的一个基本目标是理解生物体如何将遗传信息解码为独特的生物特征和功能。这个解码过程包括将DNA转录成RNA,然后转录成蛋白质,遵循中心法则的步骤。遗传密码是其中最典型的步骤,它解释了如何将RNA中的核苷酸序列翻译成氨基酸序列。 近年来,人们发现人类和黑猩猩之间的基因组蛋白编码区域在很大程度上保持一致。因此,人们推测物种之间和物种内的表型差异主要是由基因表达的定量变化引起的。这种定量变化在很大程度上由基因组编码,因为不同物种和人类种群中许多表型特征具有高度遗传性,这表明存在另一种基于DNA的代码来决定这些特征。这个代码被称为“顺式调控密码”,因为基因表达受到调控性DNA元件的控制,这些元件通常在同一染色体上的等位基因上起作用(在染色体的相邻区域内)。然而,与遗传密码不同的是,顺式调控密码的定义仍然不明确,很难解读。在这篇综述中,我们比较和对比了遗传密码和顺式调控密码,讨论了顺式调控密码的特点,这些特点使得我们难以全面解读它,概述了我们目前对这些特点的理解,并考虑了未来的研究方法。
什么是顺式调控密码? “密码”一词意味着将一种形式的信息转换为另一种形式,类似于遗传密码中核苷酸到氨基酸的映射。广义上,顺式调控密码可以被描述为DNA序列和基因表达水平之间的映射关系。(为简单起见,在本综述中,我们将基因表达水平等同于转录活性;尽管如此,重要的是要注意转录后调控机制在基因调控和物种内外表型差异中也起着关键作用。)对于这个密码,应该具有预测性;就像遗传密码允许我们根据信使RNA序列预测氨基酸序列一样,顺式调控密码应该允许我们根据DNA序列预测转录水平。然而,这个定义仍然模糊不清:需要多少DNA序列才能全面预测基因表达?仅预测一个基因的转录是否足够?在什么细胞环境中进行转录?这种模糊性反映了顺式调控密码面临的三个主要挑战,与遗传密码的三个有利特征形成对比,这些特征有助于解读遗传密码:顺式调控密码的第二个挑战是输入DNA序列的大小。在遗传密码中,每个RNA分子和生物体的所有细胞类型和几乎所有物种中,都使用单一、普遍的遗传密码,只在细胞器和原核生物中存在轻微的变异,这反映了翻译机制的早期演化。然而,顺式调控密码在很大程度上依赖于细胞环境,因为直接读取DNA序列的转录因子(TF)在不同细胞类型之间有所差异,而DNA甲基化等表观遗传标记也会调节转录因子与DNA的结合。尽管我们很容易将数百个主要细胞类型看作独立的实体,但单细胞研究已经证明它们通过无数的短暂中间状态相互连接,这些状态可以在发育过程中自然发生,也可以仅在疾病或实验干扰状态下出现。最终,解读顺式调控密码需要整合细胞状态的连续变化,并能够预测细胞状态的扰动如何影响发育和疾病中的转录。
在生物体的所有细胞类型和几乎所有物种中,都使用单一、普遍的遗传密码,只在细胞器和原核生物中存在轻微的变异,这反映了翻译机制的早期演化。然而,顺式调控密码在很大程度上依赖于细胞环境,因为直接读取DNA序列的转录因子(TF)在不同细胞类型之间有所差异,而DNA甲基化等表观遗传标记也会调节转录因子与DNA的结合。尽管我们很容易将数百个主要细胞类型看作独立的实体,但单细胞研究已经证明它们通过无数的短暂中间状态相互连接,这些状态可以在发育过程中自然发生,也可以仅在疾病或实验干扰状态下出现。最终,解读顺式调控密码需要整合细胞状态的连续变化,并能够预测细胞状态的扰动如何影响发育和疾病中的转录。 顺式调控密码的第二个挑战是输入DNA序列的大小。在遗传密码中,每个RNA分子和和每个开放阅读框内的三联密码子是“模块化”的,它们是独立的(一个密码子不会影响其他密码子,除了终止密码子),且不重叠。然而,在顺式调控密码中,是否需要整个基因组来预测所有基因的表达水平?许多人关注预测短DNA序列对一个报告基因表达的影响,因为这在实验上是可行的。事实上,许多短的顺式调控元件,例如480个碱基对的minimal even-skipped条纹2增强子,能够单独调控转录,并且通常可以视为模块化单元。然而,这样的片段可能无法完全解释较大的基因组区域的活性,因为许多顺式调控元件在DNA的百万碱基对上通过物理或上位相互作用相互影响(例如,在SOX9和MYC基因座上),甚至跨越染色体(例如,在嗅觉受体选择中)。因此,完整解读顺式调控密码必须能够预测包含数十个或数百个相互之间具有复杂关系的顺式调控元件的大基因组区域如何控制多个基因的表达。
顺式调控密码的第三个特点是,与控制翻译肽链身份的定性遗传密码不同,顺式调控密码旨在描述转录的定量水平。基因的转录不仅仅是“开”或“关”,而是展现出由RNA聚合酶分子通过基因时的精确水平控制。转录以“爆发”形式发生,其频率和振幅受到调控,但本质上是随机的。由于这种不连续的过程,同一细胞中的两个基因等位基因(即使遗传上完全相同)在任何给定的时刻可能具有不同的转录状态,而在同一“类型”的细胞群体中,转录水平在个体细胞之间可以有很大的变化。然而,即使基因表达发生相对细微的变化(小于2倍),也可能对发育产生巨大影响或增加疾病风险。例如,SOX9的适度下调导致颅颌面综合征皮埃尔·罗宾序列,而PDGFRA或MYC的上调加速细胞增殖,可能导致癌症。这些例子突显了对转录的定量精确调控的重要性。因此,解读顺式调控密码的最终目标需要对转录水平进行定量准确的预测。
鉴于顺式调控密码具有上述依赖于细胞环境、复杂性和定量性的特点,我们能够理解如何在人类基因组的30亿碱基中编码超过2万个基因在几乎无法计数的细胞状态下的精确转录水平吗?尽管这个目标仍然难以实现,但在理解DNA序列如何编码转录输出的广泛规律方面,该领域已经取得了巨大进展。为了本综述的目的,我们将这些机制分为四个层次进行讨论,从基因组规模最小到最大:(1)转录因子读取DNA序列,(2)单个顺式调控元件的模块化功能,(3)远程顺式调控元件与目标启动子之间的相互作用和兼容性,以及(4)复杂调控景观中不同顺式调控元件之间的关系(图1)。接下来,我们将依次讨论这四个调控层次。
未完待续
文章来源:doi.org/10.1016/j.molcel.2022.12.032