总结
DNA组装是用于研究微生物群落结构和功能的宏基因组流程中的核心方法学步骤。在这里,我们调查太平洋生物科学长期和高精度循环共识测序(CCS)的宏基因组项目的实用性。我们比较了PacBio CCS和Illumina HiSeq数据的应用和性能以及使用代表复杂微生物群落的宏基因组样本的组装和分类分类算法。8个SMRT细胞从沼气反应器微生物组合样品中产生大约94Mb的CCS读数,其平均长度为1319nt,精度为99.7%。CCS数据组合产生了大于1 kb的相当数量的大型重叠群,与从相同样本产生的约190x较大的HiSeq数据集(〜18 Gb)组装的大型重叠群组成(即约占总重叠群的62%)。使用PacBio CCS和HiSeq重叠群的混合组件在装配统计数据方面进行了改进,包括平均重叠体长度和大型重叠群数量的增加。CCS数据的并入产生了两个显性系统的分类学分类,基因组重建的显着增强,使用HiSeq数据单独组合则分类不佳。总而言之,这些结果说明了PacBio CCS在某些宏基因组应用的价值。
介绍
Metagenome装配是所有环境测序项目的关键方法学阶段,对分类,基因组重建和功能基因注释等所有下游分析都有重大影响。通常是一个非常复杂的过程,具有许多排序平台特定的问题,如读取长度和数量。同样,也有许多样本具体问题,如高度多样性社区中存在的微生物基因组的数量,频率,类型和大小。宏基因组装配的目标是相对简单的:获得大的重叠尺寸以及尽可能少的错误组装。然而,宏基因组装配通常由短的重叠群的分散集合组成,难以对分类学和功能分配进行准确分配。至少有两种现代的宏基因组装配方法:(i)所有数据的装配,这通常是计算要求的,或者(ii)使用分档或归一化方法来选择随后组装的读取子集。使用多个测序平台的数据的方法仍然不常见,尽管有迹象表明组合方法可以提高重叠序列长度和完整性。
当前的测序技术提供了一系列读取长度。产生短读数(<250个核苷酸(nt))的方法如Illumina可以以最小的成本产生高测序深度,然而当用于分析复杂的群落数据组装时,通常需要大量的计算资源,并且所得的重叠群相对较短。在理论上,较长的读取测序技术可以克服与短读取相关的许多已知的组装问题,然而这些技术传统上伴随着一个或多个固有缺点,例如较低的测序深度,更高的成本和更高的误码率。存在可以产生更长读取的几种技术。 例如,Ion Torrent和Roche 454分别提供高达400 nt和1000 nt的读取长度,但是这些技术每碱基对更昂贵,易于产生均聚物(单核苷酸重复)测序错误。太平洋生物科技(PacBio)已经设计了基于单分子实时(SMRT)检测的测序技术,可以提供更长的读取长度,单次运行中超过14 kb的reads约为50%,5%超过30 kb。以前,单个reads中报告高达15%的高错误率阻止了使用原始PacBio进行宏基因组学测序。有趣的是,可以通过使用循环共识测序(CCS)来减少误差率,这需要对环状模板进行重复测序,并随后产生单个DNA插入物的共有序列。每个序列通过共识质量都会增加,这种方法最终可能导致高质量的序列,长度大约为500〜2500nt,精度高达99%(Q20或更好)。
在这里,我们介绍了PacBio CCS数据在商业沼气反应堆中复杂微生物群落的宏基因组分析中的各种应用。 我们比较了短读HiSeq2000和PacBio CCS数据以及两个平台的数据的混合组装。与HiSeq2000数据相比,PacBio CCS数据在通用标记基因的装配方面提供了显着的改进,允许用于系统发生分类算法的定制培训数据和来自两种数据类型的组合重叠群的准确分类。 这使得栖息在复杂群落的未培养微生物的基因组组装成为可能。
结果
PacBio CC reads改进装配统计信息
为了本研究的目的,我们分析和比较了同一生物样品产生的两个序列数据集,一个含有估计的480个单独的系统型的产甲烷沼气反应器的微生物群,此后称为Link_ADI(Table S1)。这些数据集分别包括来自八个PacBio SMRT细胞的HiSeq序列cells和数据的大约一个lane。HiSeq测序用175 nt的库构建和2 x 100 nt配对的末端序列数据的生成,总共约1.49亿个读取对。对于PacBio,使用大约1.5kb的插入片段构建文库,使用RS II仪器和P4-C2试剂测序。共生成522,695个PacBio reads,平均精度为86%,总共约为3.3 Gb。其中71,254个为CCS,平均精度为99.7%,长度为1319 nt(共95.4 Mb)。考虑到两个不同的测序平台,使用了多种组装算法。 使用MIRA 4.010组装PacBio CCS读数,结果大约46%的CCS读数组装成2,181个重叠群,平均4,459 nt,最大连字长度为65,165 nt(表S2)。SOAPdenovo2用于组合为Link_ADI生成的18.5 Gb的HiSeq数据,其生成3,035,577个重叠群(平均长度189 nt; 55,633> 1 kb),最大长度为148,797 nt。
图1:阅读长度和质量分布的PacBio“循环共识序列”(CCS)读取从使用P4-C2化学的PacBio RS II仪器上测序的Link_ADI派生的霰弹枪库(约1.5 kb插入)产生的读数。 总共使用8个SMRT细胞进行测序。 (a)PacBio CCS读取长度分布,通过0.99质量得分,平均需要10次插入通行证(b)71,254 PacBio CCS读数的质量分布通过SMRT门户(平均99.7%)。
比较两个组件的统计数据显示,尽管原始PacBio CCS数据集的尺寸要小得多(约为190多个序列),但从MIRA组件流出的大型重叠群的总长度范围是从 HiSeq装配。MIRA组件产生了34,513个重叠群和长度大于1 kb的未组装读取,总共约54.9 Mb。相比之下,HiSeq组件产生大于1kb(134.2Mb)的55,633个重叠群。 100个最大的MIRA重叠群的总大小占相当的HiSeq子集的52%。使用原始HiSeq和PacBio CCS读取方式进行混合组合的尝试最终不成功,可能是由于大量的排序读数和针对这种特定混合输入(据我们所知)定制的算法很少。因此,作为替代方案,我们使用了更适合我们的数据集和可用组装程序的下游方法。使用用于长测序读取的“Sanger”-era程序CAP3进一步组装大于1kb的组装HiSeq和CCS重叠群的两个子集(包括未组装的CCS读数> 1kb)。所得到的混合组装(图2和表S2)包括来自两个平台的未组装的重叠群,提供了平均重叠群长度(PacBio:1475nt,HiSeq:189nt,Hydrid:2056nt)的增加,以及 来自大于10kb的重叠群(PacBio HiSeq:21.01Mb,Hybrid:26.8Mb)和25kb(PacBio HiSeq:6.5Mb,Hybrid:9.3Mb)的累积核苷酸。
图2.(a)Link_ADI,(b)unClos_1和(c)unFirm_1的不同最小长度的重叠群中聚集核苷酸的累积数目。 每行对应于不同的样本(Link_ADI或eCI,其中注明),测序方法(HiSeq [HS]或PacBio [PB]),不同的组装方法(跨样本Link_ADI和eCI共同组合,使用HiSeq的映射读取和 PacBio或使用来自HiSeq和PacBio的重叠群体的混合)或组装程序(CAP3,IDBA_UD,MIRA或SOAPdenovo)。
PacBio CCS读取改进难以组装种系型的基因组分类
使用短亚基(SSU)rRNA基因扩增子分析的Link_ADI的群体表征鉴定了大约480个单独的茎型,其中两个表现出相对丰度高且与培养的细菌种类没有紧密的分类关系(表S1)。种系型unClos_1是属于梭菌家庭一个尚未未培养的细菌,并估计为表示〜总微生物的36%,而unFirm_1是属于厚壁菌一个deeply-支链未培养的代表,占约5%。为了在功能上表征两种类型,并确定其对微生物代谢网络的贡献,我们试图重建和注释其基因组。鉴于相对丰度水平较高,预计这两种生物将以其代表宏基因组数据集中的高DNA水平,从而有利于在覆盖率和重叠群长度方面更大的组装。根据组装的重叠覆盖率,大小和GC%,首先比较没有提供指示几种数字主导生物(即在窄GC%范围内的大型高覆盖重叠群的簇)的 HiSeq重叠群 ,图3c。相比之下,组装的PacBio CCS重叠群的覆盖率与GC%比较显示出更大的覆盖重叠群的一个清晰的群集,并且在窄的GC百分比范围内。
图3.来自沼气反应堆微生物群(Link_ADI)的PacBio CCS(a,b)和HiSeq数据(c,d)产生的组合重叠群的GC%,覆盖率和大小的可视化。 根据默认设置(a,c)和包含自定义的特定类型特异性训练数据(b,d)之后,使用PhyloPythiaS 进行分类分类,Contigs是有色的。 Contig长度由圆圈大小表示。 含有标记基因的PacBio CCS重排群被用作为phylotype unClos_1和unFirm_1的培训数据。 为了清楚起见,仅表示大于5kb的HiSeq重叠群(c,d)。
随后使用系统发生分型方法来尝试恢复unClos_1和unFirm_1的基因组序列信息以及尽可能多的其他phylotypes。仅存在于一个生物样品和DNA提取的,预先确定使用序列组合合并算法,并阻止使用最近显示从时间和/或多样本分组方法产生来自宏基因组数据集的准确基因组。PhylopythiaS 最初用于将分类法分配给PacBio CCS和HiSeq重叠群(大于1 kb),其对菌株或物种水平产生非常少的分类学作业。相反,绝大多数重叠群体在门上或目级别被归类为更高级别的分类群,这意味着数据为组成微生物群落的个体生物提供了有限的功能和结构性见解。这一结果并不出人意料,因为SSU rRNA基因分析表明,Link_ADI微生物组成由与NCBI中可用的原核生物基因组相关的非特异性物种(表S1)组成,用于培养植物连翘。
如果PhyloPythiaS及其前辈已经从给定的宏基因组中获得了具有特异性的训练数据(至少100 kb),则目标物种的分类和基因组重建已被证明是高度准确的。因此,为了提高PhyloPythiaS 的分辨率,我们编制了尽可能多的体型特异性训练数据。对所有重叠群进行了覆盖率与GC%指标的评估,以及分类信息标记基因的存在,目的是鉴定与我们样本中鉴定的丰富的系统类型相对应的重叠群,因此可用作培训数据。HiSeq组装的复杂性和碎片性质(图3c)使物种特异性基因组信息的鉴定成为问题。这对于获得精确到物种级别合并所需的训练数据的〜100 kb高可信度组合的能力有直接的影响。然而,组装的PacBio CCS重叠结构体的长度增加和聚类改善为unClos_1和unFirm_1提供了大量且准确的训练数据收集。我们将unClos_1的共计200 kb的六个重叠群和unFirm_1的七个重叠群共计107 kb(图3b中突出显示)。有趣的是,这包括编码完整的SSU rRNA操纵子的大型重叠群,其使用短读NGS数据(例如使用HiSeq获得的读取)难以组装。总共我们在PacBio CCS重叠群中鉴定了17个SSU rRNA基因片段,当包含未组装的读数(与HiSeq重叠群中大于1kb的6个相比)时,我们确定了17个SSU rRNA基因片段和3个匹配的unClos_1(长度为96 kb的重叠群)。
将大于1kb的HiSeq重叠群和PacBio CCS重叠群的总收集(包括未组装的读数)与包含NCBI中所有可用的原核生物基因组和上述两种类型特异性重叠群体子集的PhylopythiaS 的定制训练模型相结合。在Link_ADI的HiSeq和PacBio CCS重叠群中,输出对unClos_1和unFirm_1的系统类型级别合并的恢复都大大提高(图4)。对于unClos_1,将189个PacBio序列(PacBio重叠群和未组装的CCS读数,共计1,913,759nt)和182个HiSeq重叠群(600,903nt)分配给系统型(表S2)。576 PacBio序列(1,710,231 nt)和77个HiSeq重叠群(151,790 nt)被分配到unFirm_1。unClos_1和unFirm_1 contigs的组合也显示了表明PacBio CCS和HiSeq之间的组合差异的模式。尽管从SSU rRNA基因扩增子分析中可以看出,在Link_ADI中,系统型unClos_1和unFirm_1是最丰富的,但是,两种菌型都归因于最长的HiSeq重叠群。来自Link_ADI的十个最大的HiSeq重叠群中的九个位于放线菌纲(图3c),总共在203个重叠群上约2.2Mb(表S2)。在SSU rRNA基因扩增子分析中鉴定出放线菌属只有一种,其中第61位最丰富(表S1)。此外,每个放线菌属关联的HiSeq重叠群的覆盖率平均比比较群组合为unClos_1高出约两倍(图3d)。相比之下,放线菌属附属PacBio CCS重叠群比unClos_1短得多,覆盖率低(图3)
图4.通过PhyloPythiaS binning生成的选择的分类分类,使用和不使用自定义训练数据的默认设置。 圆圈大小表示相对仓库大小; 完整的收箱信息见表S3。 对于PacBio CCS和HiSeq重叠群,Link_ADI微生物群中代表的主门(a)中总DNA的比例是相似的,不管使用训练数据。 然而,使用培训数据可以增强PacBio和HiSeq程序集中unClos_1和unFirm_1(b)的恢复。 测序方法之间的差异在物种水平上也很明显,其中一些丰富的物种与PacBio(Thermacetogenium phaeum,unClos_1和unFirm_1)更好地组合和更好地混合,而另一些则通过HiSeq数据(Syntrophmonas wolfei和Methanosarcina barkeri)产生更好的结果。
在用于其他生物样品和发现unClos_1和unFirm_1的宏基因组数据集时,经过培训的PhyloPythiaS 与PacBio CCS contigs获得的培训数据也显示出增强的binning(图5)。从Link_ADI接种独立生产的纤维素富集(eCI),并显示出可比较的种群结构,unClos_1和unFirm_1都显示数值优势(表S4)。类似于Link_ADI HiSeq数据集,eCI(IBDA_UD19)的组装没有产生代表unClos_1和unFirm_1的长标记基因编码重叠群,并且单独使用该数据集不能进行体型特异性合并(图5a)。因此,使用从Link_ADI PacBio CCS数据集生成的培训数据对eCI HiSeq数据集进行分类(图5b)。培训后产生的分档改进了群集可视化,并且分级分配与覆盖率与GC%比较同时进行,这表明了每个系统类型的显式簇(图5b)。随后,与unClos_1和unFirm_1系统相关联的基因组信息的恢复显着更大(表S3)。随后,与unClos_1和unFirm_1系统相关联的基因组信息的组装显着更大(表S3)。与Link_ADI类似,浓缩eCI中也出现了装配差异,其中unClos_1和unFirm_1是最丰富的生物体(分别约为约48%和〜7%),但没有组装成最大的重叠群,其再次隶属于 放线菌(图5)。
图5.从eCI HiSeq数据生成的汇编的重叠群的GC%,覆盖率和大小的可视化。 样品eCI起源于从Link_ADI接种的纤维素上生长的实验室规模的富集。 Contig长度由圆圈大小表示。 Contigs是基于系统发育分档法进行着色的,该系统发生分档法是使用默认设置(a)和PacBio派生的定制结构型特异性培养数据(b)下的PhyloPythiaS 进行的。 为了清楚起见,仅表示大于5kb的HiSeq重叠群。
基因组框的混合组装改进了整个基因组重建
为了重建改进的unClos_1和unFirm_1基因组,我们使用了两步混合组装方法,该方法被改进为仅包含适用于任一种类型的PacBio和HiSeq数据。为了生成尽可能完整的基因组,我们使用了可用于Link_ADI和eCI样品两种分型的所有基因组材料。来自Link_ADI和纤维素富集eCI数据集的Binned HiSeq contigs首先被解构成单独的读取,然后在使用IBDA_UD进行组装之前汇总到一个文件中。然后将这些混合HiSeq重叠群与Pacbio CCS重叠群组装在一起,并将未组装的reads装入相同的体型。这种系统型特异性杂交方法在总基因组大小以及改进的平均重叠群长度和大型重叠群组合方面改进了基因组重建(图2b-c和表S2)。对于unClos_1,共有1178个序列(PacBio contigs,未并入PacBio读取,共同组装的Link_ADI和eCI HiSeq重叠群)长度为3,350,596 nt,组装成大于1 Kb的430个重叠群(未组合序列),总计3,030,306 nt。对于unFirm_1,来自unFirm_1的1,212个序列(3,037,687 nt)被组装成大于1Kb的815个重叠群,总计2650713nt。使用单个测序reads(形成原始重叠群)而不是使用CAP3的两步法的混合MIRA组件得到了unClos_1和unFirm_1两者平均较小的重叠群(图2b-c和表S2)。
讨论
宏基因组测序中许多常用的第二代测序方法提供了大量的数据。虽然这为每个样品提供了高水平的测序深度,但短读取长度可以限制组装更长的重叠群的能力,特别是在评估复杂的微生物群落时。具体的示例性问题包括在生物体之间具有低进化分歧的基因的存在或大于测序读取的重复基因组区域(例如,rRNA操纵子)。避免这种情况的一种方法是结合可以克服彼此限制的多种测序技术。例如,Illumina HiSeq提供高测序深度,但测序宽度不大; 换句话说,这种技术具有很高的样本跨越多个基因组的能力,其缺点是个体读取占每个基因组非常小的比例。这可以通过额外的PacBio测序来补充,它具有很高的宽度(每次读取提供至少10-30倍的数据),但深度要低得多。通过组合这两种方法,一个对于短读取测序方法,覆盖区域的可能性较高。在细菌基因组上,一些研究已经说明了这种令人信服的方法,其中混合型Illumina-PacBio方法使得近乎完整的染色体闭合已经实现,没有必要的二次测序或引物步行方法。以前,PacBio读取的高错误率(〜86%)阻止了它们在复杂社区的宏基因组分析中的使用,在这些分析中需要补偿错误读取的覆盖范围在财务上或技术上都不可行。然而,使用CCS提供了适合于宏基因组应用的高品质长读数。在这里,我们说明PacBio CCS数据可能为宏基因组项目带来的优势,包括增加的重叠群体长度,有问题的基因组区域的组合,改良的系统发生分类以及支配微生物群落的未培养的噬菌体类型的基因组重建。
对于Link_ADI,PacBio CCS重叠群体的具体优势是提高的平均重叠群体大小以及大型重叠群体的数量,后者可以与从190多个数据生成的HiSeq装配相当。在宏基因组分析中,较大的重叠群是产生较高质量输出的关键,这些下游应用需要用于分类分配,基因调用和通常超过10 kb长度的操纵子注释。两个平台的装配输出在重叠尺寸和分布上都有很大差异(图2,图4和表S2)。特别是,无论种类多样性或组合算法(图3b,图3d和图5),与PacBio CCS重叠群相反,数值统计的生物体都不需要组装成最大的HiSeq重叠群。图3A-b)。尽管PacBio CCS和HiSeq> 1 kb Contig数据集的大小相似,但是从PacBio CCS数据获得的unClos_1和unFirm_1基因组盒的大小平均分别为〜3x和〜6x大(图 4和表S2)。另一观察结果是含有难以组装区域如SSU rDNA的PacBio CCS重叠群的实例。平均来说,含有相关SSU rDNA数据的PacBio CCS重叠群比含有HiSeq重叠群的SSU rDNA大15倍。通过添加含有特异于unClos_1和unFirm_1的基因组信息(图4和表S3)的PacBio衍生的定制培训数据,显示出传统的基于组合的binning显着改善。这些系统型特异性培养子集的收集只能在PacBio CCS contig数据集中进行,因为在HiSeq数据集中,两种均不具有足够长度的菌型生成的重叠群。这种方法提供了一种替代方法来重建基因组,在这种情况下,phylotypes不利于HiSeq装配和实验设计,这将不允许多个采样时间点或几个差异DNA提取,这对使用差异覆盖的群体的精确的分级算法是必需的。
虽然这项研究显示了PacBio CCS读取可能对宏基因组学研究发挥的潜在价值,但仍有改进的余地。使用PacBio CCS读取的关键之一是数据浪费在生成的读取数量和通过CCS质量截止值的数量上。人们可能预期即将到来的PacBio升级和读取长度的增加将产生更高数量的高质量CCS读取,从而减少浪费。值得注意的是,仔细检查显示,阅读浪费也适用于在基因组学应用中使用Illumina。例如,在本研究中,只有35.6%的配对末端HiSeq读数组装成大于1000nt的重叠群,这是用于许多宏基因组分析中的任意截止值。
对于整个社区数据集和特定于机构类型的仓库的混合组合产生了改进(图2和表S2),这仅仅是一个开始。在未来,将有更好的长读数据访问,并且预计进一步改进针对多个排序技术输入进行定制的组装算法将提高混合组合性能。无论如何,这些方面需要进一步关注,从而可以利用更长的阅读技术的全部潜力来深化对复杂微生物群落的洞察。这项研究还表明,长读数变得越来越普遍,他们将进一步软件扩展分类算法,如PhyloPythiaS 非常有价值,并允许自动将训练重叠群分配到新的文体类型,而不仅仅是更高级的分配。增加代表未培养微生物的准确基因组的能力是非常重要的,因为它们允许准确测绘社区代谢,并且是有意义的宏研究的先决条件,可能揭示基因和/或具有新功能的蛋白质,这些功能不能被单独的生物信息学识别。
方法
样品
Link_ADI样品是从瑞典Linköping的商业沼气反应器获得的,其中包括屠宰场废物,食物废物和植物生物量(反应器I)。使用与接种源和纤维素作为底物相同的商业沼气工厂从批料富集取样样品
DNA提取和测序
使用FastDNA Spin Kit for Soil(MP Biomedicals,Santa Ana,CA,USA)制备总基因组DNA。 对于Link_ADI和cEI,根据制造商的方案,使用200μl的等分试样进行DNA提取。对于SSU rRNA基因测序,根据制造商的建议进行文库制备(Illumina,2013)。使用细菌SSU rRNA基因的V3和V4区域进行扩增:
341F (5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCCTACGGGNGGCWGCAG-3’)
785R (5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCC-3’)
修饰的引物组,其中带下划线的序列对应于Illumina接头。
扩增子PCR反应混合物(25μl)由12.5ng微生物gDNA,12.5μliProof HF DNA聚合酶混合物(BioRad)和0.2μM每种引物组成。
PCR反应用98℃的初始变性步骤进行30秒,然后进行25个循环,98℃变性30秒,55℃退火30秒,72℃延伸30秒 然后在72℃下进行最终延伸5分钟。进行了新的PCR反应,将独特的6nt指数(Nextera XT Index Kit)附加到Illumina测序接头以允许样品的多路复用。PCR条件如下:98℃3分钟,8个循环,95℃30秒,55℃30秒,72℃30℃,最后延伸步骤72℃ ℃5分钟。使用AMPure XP珠纯化得到的16S rRNA扩增子。 定量16S rRNA扩增子(Quant-IT TM dsDNA HSAssay Kit和Qubit TM荧光计,Invitrogen,Carlsbad,CA,USA),标准化,然后以等摩尔浓度合并。然后,将多重文库库加入25%的PhiX控制,以改善测序期间的碱基响应。 在Illumina MiSeq仪器上使用MiSeq试剂v3试剂盒化学品,配对末端,2×300bp循环运行测序8 pM变性DNA的终浓度。使用TruSeq PE Cluster Kit v3-cBot-HS测序试剂盒(Illumina Inc.),通过Link_ADI和富集cEI DNA制备的文库(175nt,以确保重叠并允许配对结合)进行HiSeq Shotgun测序。此外,使用PacBio RS II单分子,实时(SMRT))DNA测序系统对由Link_ADI DNA制备的文库进行霰弹枪测序图书馆。 使用PacBio 2 kb文库制备方案制备文库,并使用P4-C2化学在8种SMRT细胞上测序。
SSU rRNA基因扩增子分析
在进行下游分析之前,使用QIIME v1.8.0工具包中的配对结束读取被加入,包括python脚本join_paired_ends.py(默认方法fastq-join)和质量过滤(在Phred> = Q20)。USEARCH61用于检测嵌合序列,然后进行非嵌合序列的聚类(以97%的序列相似性),并选择OTU。使用QIIME v1.8.0工具包将加入的读数分配给OTU,其中应用了uclust来搜索按97%身份过滤的Greengenes数据库的一个子集。根据对Greengenes数据库的最佳命中,将序列分配给OTU,具有97%的序列同一性。通过接受最佳匹配Greengenes序列的Greengenes分类学字符串将分类标准分配给每个序列。filter_otus_from_otu_table.py(包含在QIIME中)用于使用默认参数过滤OTU的总和小于0.005%,而min_count_fraction设置为0.00005,如之前报告的。
原始数据组装
来自Link_ADI的HiSeq数据使用以下参数使用SOAPdenovo-63mer(SOAPdenovo2 http://soap.genomics.org.cn/soapdenovo.html)进行组装:-K 51 -p 40 setting max_rd_len=125, avg_ins=100, reverse_seq=0, and asm_flags=1。对于Link_ADI的PacBio读取使用SMRT软件包进行过滤,只有那些产生最小精度为0.99(平均10遍)的CCS读取被考虑用于进一步分析(长度从1到3 kb)。PacBio CCS读取在MIRA 4.0中使用稍微修改的参数进行组装(http://sourceforge.net/p/mira-assembler/wiki/Home/):COMMON_SETTINGS -DI:trt=./ -NW:cmrl=warn
PCBIOHQ_SETTINGS -CL:pec=yes.
使用具有默认参数的sickle pe(版本0.940 https://github.com/najoshi/sickle)修剪浓缩 cEI 的序列数据,使用参数fq2fa(与IDBA_UD捆绑在一起)转换为交错FASTA
--merge --filter, 使用 IDBA_UD v1.1.1 8
(http://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/index.html) 组装,参数为-- pre_correction --num_threads 15 --maxk 60.
识别重叠群中的标记基因
为了识别蛋白质编码标记基因,开放阅读框调用首先使用MetaGeneMark第1版metagenome ORF调用模型进行。
gmhmmp -m MetaGeneMark_v1.mod -f G -a -d
随后使用包含的aa_from_gff.pl脚本将输出转换为多个FASTA。
将所得蛋白质序列与使用HMMSCAN(HMMER 3.0版的一部分)的31个AMPHORA标记基因HMM进行比较,其构成了细菌序列的自动系统发育学推断流程的基础。使用的标记基因是:dnaG,frr,infC,nusA,pgk,pyrG,rplA,rplB,rplC,rplD,rplE,rplF,rplK,rplL,rplM,rplN,rplP,rplS,rplT,rpmA,rpoB,rpsB, rpsC,rpsE,rpsI,rpsJ,rpsK,rpsM,rpsS,smpB和tsf。e值<1.e-5的匹配被认为是合法的。使用BLASTN(-e 1e-20 -r 1 -q -1 -v 5 -b 5 -F F)对来自测序基因组的系统发生不同代表性序列的数据库进行SSU rDNA检索。
基因组合
计算每个重叠群的GC%和每个重叠群的覆盖率
由每个组装软件提供(IDBA_UD提供单一覆盖值,MIRA提供平均覆盖率,SOAPdenovo提供k-mer覆盖)。这样,我们为每个contig创建了一个GC%与覆盖率表,使我们可视化重叠群的聚类。使用我们的PacBio重叠群的contig聚类和标记基因分析(因为它们平均更长,包含更多的标记基因表达,包括SSU rDNA片段),我们能够为两个最丰富的生物体(unClos_1和unFirm_1)产生特异性训练数据。这些子集由总共超过100 kb的重叠群组成,使用PhyloPythiaS 。符合系统特异性培养数据标准的Contigs大于7 kb,表现为覆盖率( - 2x)和GC%(±3%)值,并编码了SSU rRNA基因或标记基因, 通过16S rRNA基因扩增子分析鉴定出代表性的OTU序列。使用PhyloPythiaS 使用两种默认设置,与由NCBI中的所有可公开获得的原核基因组组成的数据库以及我们的定制培训数据进行分选。
混合组装
为了改进Link_ADI社区宏基因组的组装统计和主导系统的基因组重建(unClos_1和unFirm_1),进行了各种合并组装。使用CAP312(版本日期12/21/07)进行HiSeq和PacBio CCS Contig子集的整个社区contig(> 1 kb)的混合组装,使用默认参数,除了0.95的最小重叠百分比同一性(-p)。
为了重构unClos_1和unFirm_1的可能基因组,我们对来自所有样本的每个系统类型进行了混合组装,包括来自Link_ADI的PacBio和HiSeq数据以及来自浓缩eCI的HiSeq数据。 这是分两个阶段进行的。 第一阶段包括使用具有默认参数的BWA mem33(版本0.7.8-r455)将HiSeq读取映射到其相应的系统类型重叠群。从每个样本(Link_ADI和eCI)映射的读取通过解析生成的SAM文件来识别,并将其与每个phylotype合并在一起,并使用与上述eCI相同的工作流程与IDBA_UD组合到跨样本HiSeq重叠群中。第二阶段是将跨样品HiSeq重叠群与具有与上述相同参数混合组合的Phylotype特异性PacBio重叠群组合在一起。来自混合组合体的未掺入的重叠群(进入组装体的重叠群体,但未并入混合重叠群体)也被包括在本研究中使用的最终重组基因组中。
也使用MIRA 4.0进行两个平台之间的原始序列的混合组合。将每个协同组装中使用的交叉样本HiSeq读取作为输入以及映射到每个物种特定bin(通过MIRA提供的CAF结果文件识别)的PacBio读数。
COMMON_SETTINGS -SK:mmhr=1 -NW:cac=warn -NW:cdrn=no -NW:cmrl=warn 17
PCBIOHQ_SETTINGS -CL:pec=yes SOLEXA_SETTINGS -CL:pec=yes.
对于HiSeq读取组,提供以下信息:template_size = 100 400 and
segmet_naming = solexa.