每当我们拼接出一个完整的细菌基因组时,总是迫不及待地画出它的图谱,一个常见的细菌基因组图谱如下所示:
最外圈为正负链上的编码区及结构RNA基因,其内为基因组不同区域GC含量的变化,最内圈就是GC skew。其中绿色为skew ,紫色为skew-,这时候我们看到GC skew具有很明显的规律性。
GC skew也即GC歪斜或GC偏倚,用来衡量在单链DNA中碱基G和C相对含量的不同。双链DNA其G的含量一定等于C的含量,然而G和C在每条单链的含量不一定相同,在每条单链中G与C含量的偏移就叫GC skew。其具体的计算方法为(nG–nC)/(nG nC),因此GC skew 就表示G的含量大于C,GC skew-表示G的含量小于C。
在大多数细菌基因组中,DNA复制中的前导链(leading strand)和对应的滞后链(lagging strand)在碱基组成上存在着很明显的不同,表现出碱基组成上的不对称性(compositional asymmetry)。前导链富含G和T,而滞后链中的A和C更多一些,打破A=T和C=G的碱基概率期望而发生偏移,而且通常GC偏移比AT偏移发生的更明显,所以习惯上更多地只考虑GC偏移。因此从复制起点延伸的前导链中是GC skew ,而在滞后链中为GC skew-,所以GC skew值是前导链起点、终点以及转变成滞后链的信号,这使得GC skew分析成为在环状DNA中标记复制起点的一个有用工具。
环状DNA分子的复制一般是单起点双向进行的(也叫θ型复制),也即在复制起点启动解旋后,两套复合体分别向两个不同的方向同时进行复制,但是分别以不同的链作为前导链。因此在复制起点处两条DNA链分别向左右两边呈现由GC skew-到GC skew 的明显变化,而在环状DNA的复制起点的对称处,也即双向复制的汇合处,也会有GC skew 到GC skew-的变化,使得细菌基因组单链呈现较明显的一半GC skew 而另一半GC skew-的现象。
造成复制起始区前导链G、T较丰富的原因并不是非常清楚,但有几个理论可以讨论。第一个是由于在DNA复制时双链解旋而成单链状态,但前导链与滞后链维持单链的时间不同,使得两条链因暴露环境中而可能产生突变的机率也有所不同。而一但突变产生,则必须使用错配修复(mismatch repair,MMR)机制,而在错配修复中产生G-T错配比A-C错配有较大的概率,使得错配修复的单链DNA会有较多的G以及T存在[1]。
另一个理论则是碱基C的水解去胺(hydrolytic deamination)作用,胞嘧啶C可以脱去氨基变成U,在双链中碱基C被保护而不发生水解,但在单链DNA上水解概率大大提高[2]。在DNA复制过程中,前导链保持单链的时间较长,因此其碱基C容易变成U,若未被修正,长久下来则使得前导链DNA上的G及T含量相对增加。还有就是信号序列(signal sequence)的分布,例如chi序列(chi sequence)。Chi序列是一个重组过程当中需要的序列,其为GT相当丰富的序列,并且常可以在前导链中发现其踪迹[3]。
参考文献:
[1] Eppinger M, Baar C, Raddatz G, et al. Comparative analysis of four Campylobacterales[J]. Nature Reviews Microbiology, 2004, 2(11): 872.
[2] Guo F B, Yu X J. Separate base usages of genes located on the leading and lagging strands in Chlamydia muridarum revealed bythe Z curve method[J]. Bmc Genomics, 2007, 8(1): 366.
[3] Tillier E R M, Collins R A. The Contributions of Replication Orientation, Gene Direction, and Signal Sequences to Base-Composition Asymmetries in Bacterial Genomes[J]. Journal of Molecular Evolution, 2000, 50(3): 249-257.