导读
人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战。为了提高基因组的组装性能,本研究采用了Illumina HiSeq与Pacbio混合、超深度宏基因组测序的方法,从12份粪便样品中重建了宏基因组组装基因组。该方法结合了第二代测序以及第三代测序,提高了肠道中低丰度微生物的测序覆盖率。我们共还原了44个Mb级别scaffolds以及4个完整的环状基因组 (CMAG),代表了对应物种下的首个环状基因组。此外,从所有样品中共组装出475个高质量的基因组,其中234个为未培养微生物的基因组,并且有24个不存在于任何一个公共数据库中。值得注意的是,有287个和77个基因组分别为每个个体的低丰度和超低丰度的肠道物种。同时,我们的研究结果揭示了个体特异性的基因组特征,包括微生物基因组生长速率、选择压力以及染色体可移动遗传元件的频率。最终,从宏基因组数据中鉴定出数千个染色体外的可移动遗传元件,包括5097个噬菌体和79个新的质粒基因组。总的来说,本研究方法为从个体水平上对人类肠道微生物群进行更加全面的基因组分析和功能表征迈出了重要的一步。
论文ID
原名:Hybrid, ultra-deep metagenomic sequencing enables genomic and functional characterization of low-abundance species in the human gut microbiome
译名:超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征
期刊:Gut Microbes
IF:10.245
发表时间:2022.1.22
通讯作者:孙志宏
通讯作者单位:内蒙古农业大学乳品生物技术与工程教育部重点实验室
DOI号:10.1080/19490976.2021.2021790
实验设计
本实验共收集了8名志愿者的12份粪便样品,其中8份来源于4名志愿者间隔7天的两次样品。使用MagaZorb DNA迷你准备试剂盒进行粪样的DNA提取,0.6% (w/v)琼脂糖凝胶电泳检测提取的DNA质量,Qubit2.0荧光仪测定DNA的数量。在12份粪便样品中,8份采用高深度Illumina测序结合PacBio宏基因组测序,4份采用高深度Illumina测序,共产生了551 Gbp高质量Illumina HiSeq数据和70 Gbp PacBio宏基因组数据。然后对测序数据进行一系列的去宿主、质控、组装、binning、聚类等还原基因组后,对基因组的相对丰度、质量、新型物种、SNP密度和pN/pS、基因组功能、染色体可移动遗传元件以及染色体外的可移动遗传元件进行了分析。
图1 混合宏基因组组装流程(原文中图S4)。
前言
数以万亿计的微生物定植于人类结肠,代表着一个与人类共存的巨大有机体库。在过去的20年里,大量研究揭示了肠道微生物群在宿主健康和疾病中的关键作用。种类繁多的肠道微生物存在对外源性和内源性基质的吸收和代谢至关重要,并可以通过多种方式塑造宿主的生理机能。在健康条件下,正常的微生物群分布在宿主可用的营养和宿主防御系统的不同生态位。因此,从个体的复杂微生物群落中探索其功能可以增强宿主与微生物之间相互作用的理解。
然而,我们发现人类肠道微生物受未培养物种比例高以及缺乏高质量参考基因组的限制,尤其是对于低丰度物种来说。宏基因组学提供了一种非培养的方式来探索这些未知的物种。大量新型宏基因组组装基因组(MAGs)的发现不仅显著提高了原始read的map可用率,而且有助于揭示功能宏基因组的潜能以及宏基因组特征与人类疾病之间的相关性。
先前的宏基因组测序研究表明,以前的宏基因组测序研究是基于大规模样本进行的,但测序深度有限,大约每个样本为5~10Gbp。这种测序深度对于低丰度物种来说是远远不够的,并且会忽略许多重要的基因组信息。理论上来说,对于样本中相对丰度为0.1%的物种,每个样本5Gbp的测序深度只能提供有限的基因组覆盖,这几乎不可能进行精确和深入的比较宏基因组分析。事实上,一些对人类健康起着极其重要作用的肠道微生物可能只是以低丰度物种的形式存在。例如,乳酸菌在人类肠道中的含量还不足0.1%。因此,分析这些低丰度物种可以为理解肠道生态和肠道微生物群的功能提供新的见解。
长读长测序的方法可以解决目前短读长测序(如Illumina HiSeq)在宏基因组组装方面面临的许多问题。例如,长读长测序可以覆盖重复和低覆盖度的区域,从而增加组装的连续性。因此,长读长的组装已经引起人们极大的兴趣,因为它能帮助我们更好地理解复杂的宏基因组群落(包括环境、瘤胃、皮肤和人类肠道中的微生物群落)。例如,使用纳米孔(nanopore)测序平台可以直接组装出环状,无间隙(gap)的基因组(CMAG)。单分子实时(SMRT)测序已被证明可以提高单基因组组装的性能以及宏基因组组装在宏基因组分析中识别宿主-质粒/病毒关联的性能。长读长测序促进了组装高质量基因组的发展,但在个体水平上组装所有微生物的基因组仍具有挑战,这主要是因为目前大多数研究使用的测序深度相对较浅。这不仅限制了我们获得肠道细致生态图的能力,同时也阻碍了基于肠道微生物群的医学发展。本研究采用了一种超深度混合测序的方法对8位成人的12份粪便样本的基因组进行了重组,为了改善组装质量,用不同宏基因组组装方法对人类微生物组项目(HMP)模拟数据集进行组装,并分别评估其组装性能。研究结果表明,我们目前设计的混合测序组装的方法在人类肠道微生物群中低丰度和超低丰度物种基因组和功能表征方面超过了现有的方法。
实验结果
1 宏基因组测序与组装方法
本研究对两个数据集进行了深入分析,以表征采集的样本中人类肠道微生物基因组的特征。第一个数据集包括了4名志愿者的8个样本(每个人的两个样本之间间隔七天),对样本进行HiSeq和PacBio测序(共生成274 Gbp数据;HiSeq 测序量为每个样本34.2 ± 10.8 Gbp,PacBio测序量为每个样本8.7 ± 3.7 Gbp;表S1a),第二个数据集包括了4名志愿者4个样本的测序数据(共277 Gbp HiSeq测序数据,每个样本69.3 ± 39.8 Gbp;表S1a)。
使用metaSPAdes组装HiSeq数据,每个样本的测序量为238 Mbp(表S1b),N50平均长度为38 Kbp。稀疏性分析表明,随着测序深度的增加,组装的scaffold总长和性能(N50和最大scaffold长度)也显著升高。此外,组装序列的大小也持续升高,直到其大小达到40 Gbp时(图2a),N50和最大scaffold长度趋于平稳(图2b,c)。对不同测序深度下scaffolds的占比进行了评估,发现测序深度达到10Gbp时,低丰度物种基因组片段的覆盖率要高于5Gbp(图2d),但并未显著提高组装性能(图S1a-c)。
使用不同方法(metaSPAdes、Flye、hybrid-long)对测序数据进行组装,相较于二代组装(metaSPAdes),混合组装的N50长度提升了2.5倍(平均长度2.0±0.4,范围为1.2-2.5),且基因组总长增加了18.7%±18.9%,这表明基因组的捕获能力显著增强(表S1b-f,图2e-g)。值得注意的是,仅通过混合组装,scaffold的长度就可以达到1Mbp以上,其中有44个scaffolds达到了此长度,这是仅凭组装二代测序数据无法实现的(图2h)。此外,与仅基于HiSeq组装的基因组相比,混合组装方法揭示了更多低覆盖的scaffolds(图S1d)。总的来说,深度Illumina测序数据与PacBio测序数据相结合的模式,不仅能够改善基因的组装质量和基因组覆盖度,还能够在挖掘更多低丰度物种的基础上揭示被忽略的基因组特征。
图2. 超深度混合测序的基因组组装质量评估。稀疏性分析:(a)组装总长,(b)N50长度,(c)最大scaffold长度与测序量之间的相关性。随着测序深度的增加,组装总长度增加,但其他组装性能指标(如N50和最大scaffold长度)无明显变化。图(d)抽取5Gbp和10Gbp的数据量,对不同测序深度下scaffolds占比进行评估。(e-h)使用不同方法测试宏基因组的组装性能,metaSPAdes(针对短读长),Flye(针对长读长)和hybrid-long (针对短读和长读长)。“hybrid-long”方法显著提升了组装的总长度(e)和组装的连续性,表现在N50长度(f)和最大scaffold长度(g),产生了44个超过1Mbp的scaffolds(h)。数据以箱线图表示(中线,中位数;框限,上和下四分位数;连接线,1.5×四分位数范围;点,离群值;原文图1)。
2 完整、环状基因组(CMAG)
本研究中混合测序的一个重要成果就是得到了4个完整的(环状、无gap)基因组(CMAG),分别为YA1_M7,YA2_M2,YA2_M3,以及YA2_M4,其中完整度最小为98.65%,污染率最大为1%。基于GC偏移和PacBio及Illumina reads的测序深度对这些CMAGs进行了可视化(图3)。短读长无法跨越重复区域,而长读长可以识别到这些区域并将邻近基因片段之间的重叠部分连接起来,从单个scaffold中组装出接近完整的基因组CMAG,基因组图中展示了Illumina和PacBio的覆盖度、GC偏移、编码序列 (CDS) 以及tRNA和rRNA的分布。
将这些CMAG与最全面的人类肠道微生物基因组数据库(UHGG)比较,共鉴定出4种同源物种(平均核苷酸相似度ANI: 97.3–98.4%),其中一种为分离株(例如,GUT_GENOME096210, Faecalicatena gnavus),由数据集中的41个scaffolds组装而成;其他三种完全是由平均49个scaffolds组装而成。值得注意的是,这些CMAGs为UHGG中对应物种提供了第一个呈环状、接近完整的基因组,并且包含了相应细菌最全面的基因组信息(rRNA、噬菌体;表S2)。相比之下,UHGG中的相应物种没有完整的rRNA操纵子、噬菌体基因组以及重复区域的信息。CMAG不仅增加了基因组的完整性,并且揭示了先前未解决的基因组特征。
图3. 4个完整的环状基因组(CMAG)。这些 CMAGs分别为YA1_M7,YA2_M2,YA2_M3,YA2_M4,它们由PacBio和Illumina reads组装而成,确保了高水平的碱基一致。长读长(PacBio)的覆盖度为757±792(范围123-2106),短读长(Illumina)的覆盖度为3064±2960(范围615-8098)。外环代表UHGG数据库中对应物种的scaffold,基因组图中展示了Illumina覆盖度、PacBio覆盖度、GC偏移、正( )链和负(-)链的编码序列(CDS)以及tRNA和rRNA的分布(原文图2)。
3 微生物基因组组装及其分类学地位
接着,对本数据集中的MAGs进行了组装和物种注释。使用MetaBAT2 binning后共得到了1,781个原始的bins(表S3)。我们共得到了475个完整度>80%,污染率<5%以及质量值>60的基因组草图。这些基因组草图包括了所有样本中超过80%的Illumina reads;因此,它们能够代表整体的宏基因组含量和肠道微生物群落。这些基因组草图的平均大小为2.9 Mbp(范围在1.3~7.4 Mbp之间),N50的平均长度为92 Kbp(范围在5.4~3.7 Mbp之间;表S4),其中只有94个满足MIMAG“高质量基因组”标准(完整度>90%,污染率<5%,有5S,16S和23S rRNA基因并且至少存在18个tRNAs;表S5)。绝大多数的高质量基因组(98%)都是通过混合组装获得的,由于无法解析rRNA操纵子区域,大多数仅由短读长组装的MAGs都没有达到“高质量”水平。这些结果表明,混合宏基因组的方法可以显著提高基因组的组装质量以及有问题区域(如rRNA序列区域)的挖掘。
利用常规的宏基因组分析方法和混合超深测序宏基因组组装的方法在当前数据集中恢复了整合肠道基因组数据库(IGG)中不同相对丰度的基因组分布,基于二三代混合的组装方法,基因组在个体间的相对丰度仅低于IGG数据库约1%(图4a)。IGG数据库包括超过60,664个肠道基因组和其他环境中微生物基因组。一般宏基因组研究中MAGs的中等相对丰度约为1%,作为区分高丰度和低丰度类群的截断水平。本研究共得到了111个高丰度(相对丰度>1%)和287个低丰度基因组(相对丰度0.1–1%),剩余77个基因组的相对丰度均小于0.1%,被认为是超低丰度的物种,在先前的研究中很少被发现。
为了进一步比较浅层测序中微生物物种挖掘的有效性,我们从5和10 Gbp样本的数据集重建了MAGs,因为5和10 Gbp是大多数传统宏基因组研究中使用的测序量(表S6)。对binning性能进行评估发现,相较于普通测序深度,深度混合测序极大提升了binning的效率,且普通测序产生的bins数量(bin大小>200 Kbp)明显低于超深测序产生的bins数量(图4b)。在测序量达到5Gbp或10Gbp时,超过98%的高丰度物种基因组被恢复,其完整度>80%(图4c),并且大约23%为低丰度物种基因组,但未发现超低丰度物种的基因组(图4d-e)。此外,浅层测序的基因组覆盖度、功能基因的含量以及低丰度和超低丰度基因组的组装性能都远远低于超深度测序(图4f,表S7)。以上结果表明超深度测序相较于普通测序,能够恢复更多低丰度物种的基因组。
通过物种注释发现这些MAGs来源于7个门,16个纲,24个目,40个科,72个属以及116个种。其中,来源最多的为厚壁菌门(74.7%),然后为拟杆菌门(9.5%),放线菌门(7.1%)以及变形菌门(6.5%)。此外,还包括了一些次要的门,脱硫菌门(4个种),梭杆菌门(3个种),疣微菌门(2个种)以及广古菌门(1个种)。值得注意的是,几乎一半的MAGs不能注释到种水平(n=234),它们被认为是未培养物种。在门水平,51.0%的厚壁菌门,48.4%的变形菌门以及41.2%的放线菌门的物种都被鉴定为未培养物种(图S2a)。在这些MAGs中,90.2%的放线菌门,86.1%的厚壁菌门,83.3%的变形菌门以及79.5%的拟杆菌门为低丰度及极低丰度物种(图S2b)。然后,将我们的数据集与UHGG数据库进行比较,以确定我们数据集中基因组的质量和新颖性。与现有物种相比,24个MAGs被鉴定为新种(ANI<95%;图S3),并且209个MAGs与其同一物种的现有基因组相比,质量有所改善。在本研究中有167个MAGs为现有参考基因组缺失的16S rRNA全长基因组(表S4)。此外,66.7%新的MAGs被鉴定为梭状芽胞杆菌目。以上结果表明,尽管近期肠道微生物研究中新的基因组不断增加,但某些进化分支中仍有大量未培养物种尚未探索。
图4. (a)利用常规宏基因组分析方法和超深度混合测序的方法,在当前数据集中恢复IGG数据库中不同相对丰度的宏基因组组装基因组。(b-e)抽取5Gbp和10Gbp的数据量,完整数据集中>200Kbp的bins,高,低,超低丰度基因组反映了binning性能。(f)超深度测序在宏基因组组装性能方面优于浅层测序。5Gbp和10Gbp重建的高、低、超低丰度的基因组数据集与超深度测序获得的475个高质量的基因组进行比较。图中展示了基因组的完整度,N50长度,基因组大小,已识别的编码序列(蛋白)的数量,kegg数据库和Cazy(碳水化合物)的注释结果。色阶代表重组基因组的比例(原文图3)。
4 不同丰度物种的基因组特征
微生物的可培养性和丰度可能与其固有的基因组特征(比如GC含量、预估基因组大小、编码序列密度)、生长速率以及生态系统中的选择压力有关。通常来看,低丰度和超低丰度物种的编码密度、pN/pS率及SNP密度均高于高丰度物种(图5a)。有趣的是,相对丰度与SNP密度(r = -0.25, P < .001)、pN/pS率(r = -0.12, P = .011)呈负相关,这表明在肠道环境中,低丰度物种受到更高的选择压力(图5b)。生长速率与预估基因组大小(r = 0.19, P < .001)、SNP密度(r = 0.26,P < .001)呈正相关;同时,SNP密度与预估基因组大小也呈正相关(r = 0.21, P < .001)。此外,编码密度与预估基因组大小之间存在显著的负相关(r = -0.18, P = .001)(图5b)。以上这些相关性可能反映了肠道物种间的相互作用和生态位适应。
图5. (a)高丰度、低丰度和特低丰度物种基因组的特征比较。(b)热图中星号具有统计学意义:*P<.05,**P<.01,***P<.001。散点图中的蓝色虚线表示斯皮尔曼相关性(原文图4)。
5 染色体可移动遗传元件(MGEs)以及染色体外的可移动遗传元件
染色体可移动遗传元件(cMGEs)的分布表明,不同丰度的物种/基因组之间存在显著的基因组变异,我们共识别到38624个cMGEs,包括了9807个与转座子相关、6513个与质粒相关、5473个与噬菌体相关以及16831个与其他机制相关的cMGEs(图6a,表S8)。与低丰度和超低丰度物种相比,高丰度物种有着更多与质粒、转座子以及其他机制相关的cMGEs(P < .001;图6b)。
此外,我们还识别到了染色体外的可移动遗传元件,包括了281个未分类的质粒(>10 Kbp,表S9)以及5,097个未分类的噬菌体(>5 Kbp;表S10,图6c)。噬菌体主要来源于三个病毒家族,分别为Siphoviridae (长尾噬菌体科;48.7%)、Myoviridae(肌病毒科;16.1%)以及 Podoviridae(短尾噬菌体科;5%;图6d,表S10)。组装出了4个常见的单个scaffold人类肠道相关噬菌体crAssphage,其中一个为98.0 kb的圆形基因组。大多数质粒(72%)在NCBI数据库中都能找到高度同源的物质,但大多数假定噬菌体(80%)不能注释到科水平,这表明了在人类肠道宏基因组中存在大量尚未探索的染色体外MGEs。
图6. 组装基因组的染色体可移动遗传元件(MGEs) 。(a)染色体MGEs在所有宏基因组组装基因组(MAGs)中所占的比例。(b)箱线图展示了不同丰度基因组MGEs的分布。(c)按序列长度和覆盖度分布的病毒家族。(d)12个个体科水平的肠道病毒;***P < .001, ****P< .0001(原文图5)。
6 不同丰度物种中多糖代谢和短链脂肪酸(SCFAs)生物合成的相关基因
为了研究肠道微生物在多糖降解和代谢方面的潜能,与KEGG数据库进行注释,重构了关键的预测肠道代谢通路和每个个体基因组网络间的相互作用。使用Omixer-RPM(v.1.0)识别功能通路。不可消化淀粉颗粒的生物降解、植物和宿主来源(概括为C1-C6)的多糖可能是肠道降解微生物的主要能量和碳源。随后,肠道厌氧菌在糖发酵后可能产生有机酸 (包括乳酸和琥珀酸) 和短链脂肪酸。
以超低丰度和低丰度基因组为代表的类群是大多数代谢相关通路的主要参与者,平均占代谢功能的16.3%和58.3%(图7),尤其是低丰度物种富集了9种通路(与多糖降解和短链脂肪酸合成相关的通路,表S11),包括了一些多糖降解的途径(如淀粉降解(C1)、纤维素降解(C2)、木葡聚糖和木聚糖降解(C4))、果聚糖的降解以及一些有机酸和短链脂肪酸的合成途径(包括乳酸(S3)和丙酸盐(S10))。这些结果表明低丰度物种也广泛参与了多糖以及短链脂肪酸的代谢,同时也提示我们,在个性化的微生物组研究趋势下,不可忽视低丰度物种。
图7. 肠道宏基因组的预测代谢潜能。(a)在本研究数据集中发现的多糖代谢和短链脂肪酸(SCFA)生物合成相关的宏基因组组装基因组(MAGs)示意图。多糖代谢和短链脂肪酸生物合成相关通路分别以编码C1-C7和S1-S15表示。根据KEGG数据库中的关键反应进行功能基因的注释,功能通路由Vieira-Silva等人发现的Omixer-RPM(v.1.0)进行识别。各模块的反应详细情况见表12。(b)堆积图展示了高丰度、低丰度和超低丰度基因组相关通路(C1-C7、S1-S15)的总体分布。饼图展示了这些通路在每个个体中的分布情况(原文图6)。
讨论
目前,大多数研究的宏基因组测序深度被限制在每个样本5Gbp~10Gbp,然而,我们的结果表明,在短读测序深度超过10 Gbp的情况下,可以获得新的基因组特征。当测序深度不断增加时,会发现更多的低丰度物种,这意味着传统的宏基因组测序和组装方法将会丢失大量微生物多样性以及低丰度物种,而结合长读长可以有效改善组装性能,因此,本研究采用了短读长与长读长相结合的模式来进行组装。
我们的方法确保了重复区域的正确组装和组装的连续性,不仅提高了组装性能,也让我们对复杂微生物组的组成有了更加全面的了解。尤其是在本研究中成功组装出了高质量的单个scaffold基因组,使我们可以直接从复杂的宏基因组样本中获得高质量的参考基因组。此外,还获得了高质量、完整的单scaffold细菌基因组的多个rRNA操纵子,这在先前的研究中是不可能实现的。例如,我们成功组装出了4个完整的环状基因组CMAG,代表了对应物种下的首个环状基因组,并且这4个基因组中包含了完整的rRNA操纵子(5S,16S,23S)。相比之下,它们对应的参考基因组是具有多个片段的contigs,即使发现了类似rRNA操纵子的序列,也会缺失一个或多个5S/16S/23S基因特征。因此,这些具有代表性的基因组序列的可用性在很大程度上提高了分类注释、基因组分析和基于16S rRNA基因丰度分析的准确性。
超深度混合基因组测序显著提高了宏基因组的分析性能,特别是在数据提取与组装方面。本研究共从12份粪便样品中组装出475个基因组草图,其中有24个新型基因组,有47个基因组的组装质量得到了显著改善,并且有20%的基因组满足MIMAG标准(完整度>90%并且包括23S,16S以及5S rRNA基因,并且至少存在18个tRNAs;2017年美国能源部联合基因组研究所提出的一项更严格的高质量基因组标准),绝大多数(94%)是通过超深度混合测序方法组装的,这表明我们的方法在获得高质量基因组方面要有效得多。近期一项研究收集和分析了人类肠道微生物组数据集中的204938个基因组,聚类分析后共得到了4644个原核物种,其中只有573(12.3%)个满足MIMAG标准。本研究结果表明,尽管数万个宏基因组样本重建了数十万个基因组,但仍有极大程度的细菌多样性尚未被探索,这也启示我们为了实现对人类肠道微生物群功能及生态更全面的理解,我们应该尽可能提高基因组质量。
随着测序量的增加,低丰度物种也被鉴定出来。Walsh等人指出宏基因组测序深度不会显著影响低多样性微生物群落的分类和功能分析结果。然而,我们的研究表明,深度测序显著提高了复杂人类肠道微生物群中低丰度物种的宏基因组binning性能,尤其是对于相对丰度1%以下的物种。此外,我们发现大多数低丰度和超低丰度物种的基因组无法通过浅层测序鉴定出来。
同时,本研究还揭示了采样环境的生态位,因为生态环境生态位被认为是细菌的微生物菌群组成和相对丰度的主要因素。我们发现与高丰度基因组相比,低丰度基因组的染色体可移动遗传元件(MGEs)含量较少,基因组不完整是其主要原因,所以我们通过基因组大小对cMGEs的数量进行了标准化,以消除这种影响。在低丰度基因组中检测到的与质粒相关的MGEs数量也较低,这可能不仅仅是由于宏基因组数据集中高丰度和低丰度基因组之间的读取量不对等所造成的偏差,因为在一些个体中功能基因/途径在低丰度基因组比高丰度基因组中更加丰富,例如与聚合碳水化合物相关的微生物降解基因/途径。另一方面,我们发现低丰度物种有着较高含量的SNP密度,并且受到更高的选择压力。而MGEs的存在也被认为与肠道微生物群的进化性和适应性有关,但是,由于本研究样本量较小,所以目前的数据还需进一步研究,在未来的研究中,样本的数量和测序的深度都必须增加,以巩固目前的发现。不论怎样,我们发现研究这些低含量的肠道微生物对我们更好地理解肠道生态至关重要。
此外,低丰度物种广泛参与了多糖,短链脂肪酸的代谢,这些结果表明,低丰度物种可能对肠道微生物的各种代谢和发酵都有很大的贡献,而这种贡献对宿主来说是至关重要的。因此,在个体水平上去研究这些物种可以帮助我们更好的了解它们在肠道环境中的活动以及它们对宿主的贡献。目前为止,这只能通过目前开发的超深度混合宏基因组测序和组装才能实现。
长读长测序是一种识别人类肠道微生物中染色体外MGEs的有效方法,据报道,MGEs在微生物进化和适应中发挥着重要作用。我们发现了几十种质粒和数千种噬菌体,其中大多数与已知物种不具有同源基因。因此,对人类肠道染色体外MGEs的认识也因缺乏参考基因组而受到阻碍。另一方面,这对我们来说是一个很好的机会,利用本研究中的方法去探索更多人类肠道微生物组中的新型MGEs。
总的来说,超深度混合测序的方法可以揭示更完整的宏基因组功能信息,并且突出了深度测序在揭示复杂微生物群中存在的稀有物种的基因组特征和宏基因组功能潜力方面的价值。然而,这种方法最大的缺点是成本高,大约比短读测序贵15-20倍。因此为了获得包括低丰度物种在内最全面的复杂微生物群,一种方法是对相对丰度较低但具有代表性的样本进行测序,而不是仅仅采用低覆盖度的传统宏基因组测序方法。
结论
随着测序量的不断增加,产生了大量的宏基因组数据。然而,由于传统测序方法的测序深度较浅,使得低丰度和超低丰度在复杂的微生物群中被忽略。本研究采用了一种超深度混合测序的方法,从人类肠道基因组中还原了一些高质量的低丰度和超低丰度物种的基因组。我们的研究结果表明,这些物种具有未知的和特定的基因组特征,特别是MGEs和代谢途径的模式,这也表明它们可能在肠道微生物群中发挥着特定作用,并对宿主有积极作用。尽管目前的研究显著提高了物种分类性能以及参考基因组数据集的质量,并还原了低丰度物种,但在个体水平上深入了解肠道微生物群及其相互作用仍然具有成本高以及一些其他的挑战。