Nature microbiology:解析噬菌体的进化模式

2022-05-05 12:45:04 浏览数 (1)

文章导读:

噬菌体可能在原核生物的进化过程中起着至关重要的作用,然而研究其如何起作用是个充满挑战的任务。噬菌体本身的系统发育十分令人困惑,其基因组具有镶嵌性,在进化历程中可能存在频繁的重组。因此,研究噬菌体的进化应使用不同于细胞生命的方法。本篇文章经过对大量噬菌体基因组的探索,发现了两个界限明显的进化模式:高基因流通模式与低基因流通模式,并探索了不同因素对进化模式选择的影响。

Bacteriophage evolution differs by host, lifestyle and genome

噬菌体的进化因宿主、生活方式及基因组而异

作者:Travis N. Mavrich and Graham F. Hatfull*

期刊:Nature Microbiology (IF=14)

时间:10 July 2017

文章摘要

噬菌体在微生物进化、海洋营养循环和人类疾病中起着关键作用。噬菌体具有高度的遗传多样性,由于和其他噬菌体及宿主的水平基因转移,其基因组具有镶嵌性特征。因此,噬菌体进化十分复杂,其基因组可能由具有不同及多样进化历史的基因组成。然而,关于镶嵌性的角色以及其在何种程度上产生连续的基因组多样性或遗传不连续的类群仍然存在不一致的观点。本文展示了噬菌体有两种通用的水平基因转移的程度相差一个数量级的进化模式。温和噬菌体可以被划分为高基因流动模式和低基因流动模式,而裂解型噬菌体只有低基因流通模式。进化模式与宿主密切相关,温带型和裂解型噬菌体被划分到不同模式的比例随宿主门的不同而异。遗传相关的噬菌体也可以被划分到不同模式,这表明水平基因转移可能是由于遗传驱动的也可能是生态驱动的。因此,基因组嵌合性因宿主、生活方式和噬菌体的遗传结构而异。

文章正文

超过95%的已测序的噬菌体基因组为双链DNA(dsDNA)的有尾噬菌体,其中2191个已经检测到水平基因转移(HGT)的进化模式。这些噬菌体侵染Actinobacteria、Bacteroidetes、Cyanobacteria、Firmicutes和Proteobacteria中超过130个属,且生活在广泛的环境中。然而,这些噬菌体的宿主谱系是高度异质的,877(占40%)个Proteobacteria噬菌体侵染76个属,828(占38%)个Actinobacteria噬菌体侵染15个属,其余的22%噬菌体则广泛侵染剩余的42个属。35%的噬菌体曾被分离培养,且均属于Actinobacteria噬菌体。

本研究基于k-mer度量对所有的dsDNA噬菌体基因组进行两两比较来计算核苷酸距离,并测定了基因含量相对于核苷酸距离的变化(图1a)。首先,使用Mash算法计算全基因组的核酸序列距离;其次,基于氨基酸序列的相似度将所有的基因聚类成phamilies,然后根据成对的共享的phamilies比例来计算基因含量变化。

图1. 两种进化模式与噬菌体生活方式的关系

(其中a. 核苷酸距离与基因含量距离散点图来展示两种不同的进化模式,边际的频率直方图展示了数据密度; b. 根据基因组距离定义三个不同分区,通过虚线隔开; c. 裂解型与温和型噬菌体分开展示距离关系; d. 裂解型与温和型噬菌体不同进化模式比例扇形图)

由于噬菌体的遗传多样性非常高,大多数成对比较(97%)的值超出了比较的信息范围,也就是说,它们由于很远缘没有DNA相似性,在氨基酸序列水平上几乎没有任何基因相同。然而,对相似度可测量的基因组进行比较分析揭示了两种明显的模式,一种是基因含量变化大致与Mash距离成正比,另一种是基因含量变化随着Mash距离增加上升的更为快速(图1a)。本文作者假设第二种不成比例的曲线的基因含量变化反映了基于HGT的更快的基因获得与基因丢失,并将这两种模式分别命名为低基因含量流动(low gene content flux,LGCF)模式和高基因含量流动(high gene content flux,HGCF)模式(图1a)。

因为Mash距离是基于非比对的方法计算的,它并不严格与进化分析相关;同样,基于非比对方法来聚类基因也可能是有缺点的。但是基于比对的方法只能适用于稍近缘的物种,因此作者对一个子集的噬菌体基因组使用基于比对的ANI以及使用其他蛋白聚类方法,最终得到的结果都与图1a都是相似的。裂解型噬菌体和温和型噬菌体的进化模式是有差别的。裂解型噬菌体绝大多数(97%)均为LGCF模式,而温和型噬菌体则可以明显的划分成两组,43%属于HGCF而57%属于LGCF,分别被定义为class 1和class 2温和噬菌体(图1c、d)。

图2. 噬菌体聚类簇呈现独特的进化历程

(其中a. 放线菌不同属噬菌体集群内和集群间距离比较,这里的集群intra-cluster与inter-cluster与图1b的分区是对应的; b. 44个放线菌噬菌体聚类簇其进化模式及生活方式的比例,注意这里的cluster与a中不同,是根据放线菌基因组相似度聚类而来; c. 所有放线菌噬菌体进化模式比例扇形图; d. 不同class典型噬菌体的全基因组blast比对,这里的class 1和class 2与图1c对应)

遗传相关的噬菌体拥有明显不同的进化模式。例如,Mycobacterium中温和噬菌体聚类簇F几乎都是HGCF,而聚类簇K则唯一地是LGCF模式(图2a)。这种基因组类型和进化模式的关系可以拓展到绝大多数聚类簇,不同聚类簇之间区分十分明显(图2b)。60%的放线菌噬菌体聚类簇能被划分为明显的HGCF或者LGCF模式(图2c)。

HGCF和LGCF模式的不同可能是由于不同的基因获得或丢失速率,也可能是非共享基因拥有不同的特征,例如碱基组成等。但是很多证据支持前者的推断。第一,HGCF模式的噬菌体聚类簇展现出更大的基因组大小可变性;第二,裂解性噬菌体和两类温和性噬菌体基因组中未共享基因部分的Mash距离相似。对基因组进行两两比较发现,假如两个基因组有50%共享同源基因,那么HGCF下两个基因组的共享基因的核苷酸相似性要远远大于LGCF模式(图2d)。

图3. 两种进化模式与HGT速率的关系

(其中a. 分枝杆菌噬菌体聚类簇A核苷酸距离、分支长度与基因含量距离散点图,不同颜色代表不同亚聚类簇的噬菌体比较; b. 聚类簇A噬菌体系统发育树,树枝颜色与a中对应; c. 为a中虚线框内区域放大展示; d. 亚聚类簇A1和非A1噬菌体每替换一个氨基酸的基因得失事件数目比较; e. 与d类似,其他聚类簇噬菌体每替换一个氨基酸基因组得失事件数目比较; f. 比较不同聚类簇噬菌体的一些基因组特征,例如GC含量、基因组大小及一些功能基因的数目及比例)

放线菌噬菌体聚类簇A同时可被划分为HGCF和LGCF模式,在这个聚类簇可以直接测试到差异的水平基因转移(HGT)速率(图3a)。该聚类簇有200个噬菌体且均为温和型,它们展现出了相似的基因组结构。但是他们多样性非常高,划分为17个亚簇,其中A1占25%,为HGCF模式,但是其他所有的聚类簇为LGCF模式。基于保守基因对聚类簇A进行分析,发现A1是一个单源的分支(图3b),互相之间枝长很短。对枝长与基因含量的分析也展现了A1具有明显不同的分布(图3a、c)。基于保守基因的系统发育距离来计算基因得失速率,发现A1的基因得失速率是其他亚簇的10倍(图3d)。对其他噬菌体聚类簇也发现了类似的结论(图3e)。但是这些HGCF模式的噬菌体在基因组特征上与其他噬菌体没有明显不同(图3f)。

图4. 不同宿主门噬菌体的进化模式展示

侵染不同宿主门的噬菌体展现出了不同的HGCF模式与LGCF模式分布(如图4a-e所示)。超过80%的Firmicutes温和噬菌体与少于50%的Proteobacteria温和噬菌体为Class 1(图4d、e)。Bacteroidetes噬菌体则均为HGCF模式,然而Cyanobacteria噬菌体均为LGCF模式(图4b、c)。

总结评论

本篇文章主要有两大亮点,第一是发现了两种病毒的进化模式:低基因流通模式和高基因流通模式,第二是比较分析了两种生活方式:裂解型和温和型。顾名思义,基因流通速率即为一定进化时间内基因组基因得失的速率,反映了基因组的可变性。较高的基因流通速率可能意味着较高的水平基因转移速率,也即和共侵染的噬菌体或者宿主之间发生着频繁的基因交流,这可能给噬菌体的系统发育研究带来困难。不同的进化模式的选择可能受生活方式、宿主代谢、环境因素的影响。结果发现高基因流通模式主要存在于温和型噬菌体,温和型噬菌体因其可以整合进宿主DNA并长期保留而得名。可以想象,噬菌体DNA与宿主DNA的整合过程可能产生一些基因得失。而且,由于其长时间存在于宿主DNA,更可能和其他温和型或者裂解型噬菌体产生重组。当然,目前的基因组数据无论是在噬菌体的不同谱系还是宿主的不同谱系分布严重不均衡,存在很大的偏倚,关于宿主及环境的影响需要更多的数据来支撑。

0 人点赞