使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述]

2020-04-14 17:37:25 浏览数 (1)

小编重点提示:

1.纳米孔测序低价格,便携性和快速测序;

2.缺乏专门用于分析纳米孔16S序列的生物信息学工具和流程;

3.Centrifuge和Minimap2是处理纳米孔数据的最合适工具,并且可以认为它们是当前的最佳选择;

4.由于大多数已经开发出来分类分配的分析工具只可用于Illumina数据,不能用于纳米孔序列,因此尚未系统地探索使用全长16S rRNA序列的潜在好处;

5.尽管ASV方法是评估细菌多样性的最完整方法,但是它对于纳米孔数据分析是不可行的,唯一可用的选择是基于OTU的聚类方法的应用;

6.最后要考虑的重要一点是Illumina和Nanopore测序技术产生的读取方向的差异;

摘要

通过对16S核糖体RNA(16S rRNA)基因进行测序来评估细菌多样性已广泛用于环境微生物学中,特别是自从高通量测序技术问世以来。这些技术带来的另一项创新是需要开发新的策略来管理和研究生成的大量测序数据。这种情况刺激了生物信息学领域的快速扩展,发布了新的工具,主要用于使用Illumina技术生成的测序数据的下游分析和解释。近年来,已经开发出第三代测序技术,并已与前一种测序策略并行和互补地应用。尤其是,牛津纳米孔技术公司(ONT)推出了纳米孔测序技术,该技术已在分子生态学家中广为流行。纳米孔技术提供了低廉的价格,便携性和快速的测序通量。这项强大的技术最近已通过16S rRNA分析测试,显示出令人鼓舞的结果。但是,与以前的技术相比,缺乏专门用于分析纳米孔16S序列的生物信息学工具和标准。由于其显著的特征,研究人员最近开始在16S rRNA测序研究中对MinION的适用性进行评估,并获得了显蓍的结果。在这里,我们对应用于微生物组研究的MinION技术的最新进展进行了综述。

1.介绍

微生物群落的功能,相互作用和动力学被认为对生态平衡和生命的存在至关重要为提供精确的微生物世界规模以及在分类学背景下研究微生物多样性提出了历史限制。

由于分子系统发育的基础是在1960年代和70年代建立的,因此16S rRNA基因已被广泛用于原核生物的分类研究。

直到1990年代后期,仅在分类学背景下才应用16S rRNA基因来根据从纯净(大多为临床)培养物中获得的单个细菌来唯一地定义物种。

Sanger测序技术在微生物群落研究中的引入标志着微生物生态学领域的一场革命,并彻底改变了评估微生物多样性的方式。但是,这种方法需要分析单个序列,这意味着需要克隆步骤作为研究样品的关键先决条件。结果,最多可以生成约1000个碱基的序列。但是,由于Sanger平台的通量可分析的序列数受到限制。因此,就时间和成本而言,使用Sanger测序对细菌多样性进行全面评估已成为一个严峻的挑战。

图1。各代测序技术最常用的DNA条形码测序策略。(a)第一代测序(Sanger)。在这种方法下,经典条形码编码是通过从环境DNA样品中扩增全长16S rRNA基因来完成的。一旦获得扩增子,就进行16S扩增子的克隆,将序列添加到载体中,然后转化入宿主。最后,通过Sanger方法进行质粒提取和纯化,并对16S rRNA插入片段进行测序。(b)第二代测序(Illumina)。从环境DNA样品中,进行de 16S rRNA基因特定区域的PCR扩增;根据研究范围,可以扩增16S基因的一个或两个区域,其中最常使用的区域是V1-V2和V3-V4;通过使用这些区域,通常使用配对的末端文库(DNA片段与末端连接有接头的DNA片段的混合物,并准备进行测序)制备,接头(与核酸分子连接的外源核酸)测序)和索引(唯一的DNA序列连接到测序文库中的片段,它们允许在同一测序运行中对不同样品进行后验分选和鉴定)添加到16S扩增子极端,最终测序出长度约300 bp的文库在Illumina MiSeq平台上。(c)第三代测序(纳米孔)。这种最近开发的方法开始于使用通用引物从环境DNA扩增全长16S rRNA基因。同时,在同一PCR反应中,将用于多重化的指标添加到扩增子中;一旦扩增子被纯化,就进行文库制备过程,包括在16S扩增子的特定标记区域添加蛋白质(文库制备10分钟);最后,样品的直接测序在MinION测序仪上进行。

表1。使用DNA条形码方法进行16S宏基因组分析的可用测序平台的比较。

在全球范围内,高通量测序或第二代测序(SGS)技术的出现及其在2000年代初期在实验室中的快速广泛应用代表了微生物生态学的范式转变。这些新技术提供的特征性高输出和数据准确性,以及消除繁琐且耗时的步骤,例如Sanger测序所需的克隆DNA片段和测序产物的电泳分离,使得在短期过程中生成大量测序数据成为可能。在开创高通量测序的不同公司中,Illumina在市场上处于领先地位,已成为标准测序技术,并且是微生物生态学研究中最常使用的技术。

但是,由于Illumina和Sanger技术在序列长度方面的差异性,单独使用Illumina测序无法获得16S rRNA基因的全长序列。为了克服这一限制,通常使用Illumina进行16S基因分析仅限于16S rRNA的特定可变区,而不是完整的基因(图1b)。但是,就输出,准确性和速度而言,Illumina测序的显蓍特征使这项技术成为了迄今为止基于16S分析的几乎所有最重要研究的技术,包括人类微生物组计划。

1.1 当前在16S宏基因组学研究中应用的分析方法

高通量测序技术带来的另一项创新是需要新的策略来管理和研究生成的大量测序数据。从用户的角度来看,这种变化涉及从标准计算机中普通用户可访问的基本计算机程序的应用到对需要高级生物信息学技能的复杂计算分析的需求。这种情况刺激了应用于微生物生态学研究的生物信息学领域的迅速扩展,主要是因为发布了用于下游分析和测序数据解释的新工具。如今,有大量强大的工具可用于有效集成不同类型的数据。

在这种情况下,目前有几种用于处理扩增子测序数据的生物信息学程序和工具,其中大多数设计用于16S rRNA基因的V3和V4可变区。进行16S扩增子分析的最受欢迎的软件包是QIIME 。特别是对于16S宏基因组学研究,标准分析软件包和流程通常包括一个工作流程,该流程包括多路分解和质量控制步骤,然后生成操作分类单元(OTU挑选)和/或“扩增子序列变异分析”(ASV)分析,允许对代表性序列进行分类分配和样品的多样性分析。因此,序列的生物分类分配是关键步骤,也是微生物多样性分析中最有用的元素。

图2 经典流程MOTHUR 及其用于16S rRNA扩增子分析的完整工作流程,“通用过程”流程包含两个流程中的所有通用步骤。

图2显示了16S rRNA Illumina序列最常规工作流程的详细流程。尽管不同程序包之间存在差异,但是工作流中的主要组成部分是模拟的,并且共享一个通用过程,包括:序列的质量控制,聚类或ASV分析,分类分配和多样性分析

图3。推荐的MinION 16S rRNA扩增子管线用于细菌多样性分析。

2 第三代测序技术

近年来,已经开发了第三代测序(TSG)技术,并已与前一种测序策略并行和互补地使用。这些新技术可以实时检测单个DNA分子,并产生非常长的读取(从1到100 kb)。2011年,太平洋生物科学公司(Pacific Biosciences)引入了首个TSG技术,称为单分子实时测序。

2014年,牛津纳米孔技术(ONT)引入了纳米孔测序。具体而言,核苷酸检测基于设置跨膜的电压,该电压由传感器组成,该传感器能够实时检测DNA分子通过时占据孔的核苷酸移动的离子电流变化。

运用这一技术,ONT于2014年发布了MinION平台,它具有一些显蓍的优势,例如低价格,便携性和快速测序化学。

ONT平台的另一个显蓍特点是可以从测序运行开始就进行数据分析,与Illumina平台相比,这可以大大减少分析时间。此外,与目前用于16S宏基因组学研究的其他测序平台相比,与MinION执行的分析相关的成本要低得多。所有这些特性使MinION成为许多实验室可访问的技术,从而在整个科学界迅速扩展了该技术的使用范围。在此背景下,ONT开发的一个显蓍的原始功能就是“纳米孔社区”,它是ONT网站的一部分。这种“社区”提供了一个公共空间,用户可以在其中获得有关设备性能,方法和生物信息学分析的帮助和反馈。重要的是要注意,还有其他的ONT平台可以产生比MinION平台更多的具有相同特性的测序数据,例如GridION(100 Gb)和PromethION(6 Tb)。

3 纳米孔测序技术在16S rRNA研究中的潜力

纳米孔测序为16S rRNADNA条形码研究带来了第一代和第二代测序的好处。ONT平台会产生长读长,从而可以通过快速,廉价和高通量的过程覆盖16S rRNA基因的全长序列(V1-V9区)。全长16S rRNA序列最相关的优势之一是,由于在分析中考虑了16S rRNA基因的所有信息位点,因此它们为细菌鉴定提供了更高的分类学和系统发育分辨率。ONT的另一个优点是,可以在较短的运行时间(1-48小时)内以可承受的价格(每个样本约50美元)生成数据, 表1。

如前所述,MinION是当今最受欢迎的ONT平台之一,已被广泛用于基因组学和转录组学研究,并且在过去两年中,有关微生物多样性的研究正在迅速发展。但是,尽管在微生物生态学研究中使用ONT技术具有明显的好处,但是仍然有一些因素限制了在微生物多样性的常规分析中采用这些新方法。专门设计用于16S基因全序列的工具的稀缺性使得对纳米孔序列进行专门的分类学分析极为困难。此外,纳米孔16S序列质量有限表示使用其他技术(主要是Illumina)设计的现有工具来分析这些序列的严重限制

3.1 纳米孔16S宏基因组学研究

使用纳米孔测序来描述微生物多样性的研究通常采用与以前的研究类似的方法,这些研究大多基于Illumina,无论纳米孔产生全长16S序列的事实如何。使用Nanopore,可以使用通用引物(27F和1493R)通过PCR扩增全长16S rRNA基因。通过在扩增子序列中添加接头来制备文库,并使用MinION设备上的Flowcell直接对样品进行测序(图1c)。

作者试图通过使用两个基于PCR步骤的协议来标准化不同的基于16S的扩增子条形码协议,第一个过程是扩增16S rRNA基因,第二个过程是添加用于16S扩增子测序的接头。

与样品制备相似,引入的用于分析纳米孔16S扩增子的方法学包括多种生物信息学工具。尽管如此,尽管使用了不同的工具,但所有已发表研究的中心过程都是基于分类分配的策略的应用。

3.2 使用纳米孔16S序列进行分类分配

与Illumina相比,缺乏专门用于分析纳米孔16S序列的生物信息学工具和流程。使用最广泛的工具是基于云的数据分析服务EPI2ME(ONT),它提供了许多用于纳米孔16S数据的端到端分析的工作流程:16S分类分类,条形码协议和读取质量过滤器。对于分类分配,将FASTQ文件上载到EPI2ME平台的FASTQ 16S协议上,按质量对reads进行过滤,然后使用BLAST将分类分配给NCBI数据库,最小水平覆盖率为30%,最小精度为77%作为默认参数(ONT)。但是,此工具不是公开可用的,只有ONT客户可以通过网络平台访问此工具。此外,优质的过滤器,接头trim,缺省情况下,已经配置好了序列号或比对参数(例如同一性和序列的覆盖范围)的设置,并且用户不能修改超出读取质量初始参数的范围。此外,带有分类分配结果的最终输出的格式与执行下游分析(例如多样性和分类差异丰度)的其他工具不兼容

Cusco 进行分类的新入侵奈美球菌属的微生物组,确定了与微生物组相关的2054种。

考虑到所有上述研究,Centrifuge是一种通用的比对程序,可将长的DNA序列与参考基因组(例如人,真菌,细菌或病毒基因组)作图。Minimap2比长读作图工具或cDNA作图工具快30倍以上,并且具有更高的准确性,超过了专门用于单一类型比对的大多数比对器。尽管这两种工具均已成功应用于纳米孔数据的分析,但Minimap是专门为绘制长reads而开发的,而Centrifuge则被设计用于宏基因组分析中的更通用目的(针对全基因组数据库的映射)。但是,就参数设置和配置而言,Centrifuge提供了更多种类的模块和多功能性,这可能导致更可靠的分类分配**。

其他工具,例如BLASTN,MEGABLAST和LASTZ 中,用于分析纳米孔序列。基于这些研究,已证明Centrifuge和Minimap2是处理纳米孔数据的最合适工具,并且可以认为它们是当前的最佳选择。

另外,分类分配中要考虑的第二个关键方面是数据库的组成,它通常对正确分配给不同分类级别的序列的百分比有很大影响

一些作者使用这些数据库评估了分类分配的差异,。

选择工具的最后考虑因素是输出数据的格式,因为它们不能与应用于下游分析的其他生物信息学工具兼容。这尤其与那些执行统计测试,生成图和对样本中识别出的生物分类图进行比较分析的工具有关。表2总结了使用纳米孔数据进行16S宏基因组学研究的可用工具的不同选择和应用的详细说明。

表2 DNA条形码研究中用于分析Nanopore 16S数据的不同工具。

3.3 限制超越纳米孔测序数据进行分类分配

由于大多数已经开发出来分类分配的分析工具只可用于Illumina数据,不能用于纳米孔序列,因此尚未系统地探索使用全长16S rRNA序列的潜在好处。完整的16S基因序列提供的更深的分类学分辨率可以比其他方法。

但是,在以前没有研究过微生物群落的其他生态环境中,分类学分配并不总是最好的方法。在这种情况下,生活在这些生境中的最具代表性的微生物可能仍未开发,因此它们的基因组数据不在数据库中,这使得无法对许多 reads进行分类学鉴定。由于数据库主要由16S rRNA基因的片段组成,并且全长序列的存在通常是一个例外,而不是常规,这种情况可能对纳米孔数据更为严峻,这限制了基于完整序列的可靠分类学鉴定基因。另一方面,没有分类分配的大量reads的存在直接影响了对样品中生物多样性的现实测量,从而导致对物种真实数量的低估。在这种情况下,如第2节所述,为克服这些局限性以及由直接分类法读取的 reads引起的偏差,通常将诸如操作分类学单元(OTU)拾取和/或去噪管线之类的方法用于16S Illumina数据分析 OTU拣选和ASV分析均减少了代表性序列的重复和错误,并允许在无数据库限制的情况下分析细菌群,从而实现了更可靠的分类分配,从而实现了更强大的功能微生物群落的定义

表3 用于16S rRNADNA条形码纳米孔数据的生物信息学工具。

为了执行分类分配和多样性分析,需要执行这些分析(图3)。如前所述,在Illumina测序管线中最常使用DADA2和Deblur之类的工具。但是,由于Nanopore 16S读取的特殊特性(长度和质量),DADA2和Deblur或基于ASV检测的任何其他算法的使用,至今尚无法用于Nanopore数据。通常通过纳米孔测序引入的错误数量(主要是插入/缺失)代表了在reads之间发现相似性的相当大的限制。此外,由于reads质量差而导致的人为序列差异,即使它们来自单一生物体,也可能产生以下效果:将每个 reads识别为单个序列变异体,从而高估了细菌多样性。因此,使用不适当的OTU聚类工具或使用ASV方法对Nanopore reads进行分析可能会提供样品微生物多样性的完全不正确的图片,显示出具有非常不同序列的数据集。

因此,尽管ASV方法是评估细菌多样性的最完整方法,但是它对于纳米孔数据分析是不可行的,唯一可用的选择是基于OTU的聚类方法的应用。然而,当应用最流行的聚类算法,表明该工具在OTU选择步骤中失败,这证实了上述将Illumina设计的工具应用于纳米孔数据的问题。通过执行封闭或开放参考OTU聚类,将仅对一小部分数据进行聚类,并且数据集的主要部分将由单例组成,这会导致对样本中细菌多样性的错误高估。

如前所述,读取质量是纳米孔数据分析的最重要限制之一。碱基检出是提高序列质量的最决定性的过程。纳米孔测序基于检测DNA链穿过纳米孔而产生的电流变化。理想情况下,每个基极都应具有特定的电流变化,称为事件。每个事件都通过当前的均值和方差以及事件持续时间进行总结。因此,在纳米孔数据上使用这些新的机器学习方法对于改善序列质量至关重要,并且短期内可能会允许对纳米孔序列进行必要的改进,使其超出16S序列的分类分配范围。

最后要考虑的重要一点是Illumina和Nanopore测序技术产生的读取方向的差异。使用Illumina,从测序开始就定义了读取方向,因此序列都处于相同方向,这极大地促进了生物信息数据分析。测序数据的这种同质性对于比对和聚类至关重要,因为可以更轻松地比较 reads。另一方面,利用纳米孔的一维测序化学,可以将接头连接至DNA模板的一端或两端DNA链以随机方向测序。因此,在碱基检出过程之后,数据集由彼此不互补的正向和反向序列组成。因此,为达到一致的结果,在分析纳米孔数据之前,必须结合一个额外的步骤来评估读取的方向,这一点至关重要

根据前面各节中讨论的有关使用工具及其在纳米孔序列上的应用的要点,在图3中提出了16S rRNA数据分析的工作流程。

4 总结与展望

随着现代测序技术的出现,基于微生物16S rRNA基因分析的微生物生态学研究已成为DNA条形码研究中最流行的技术之一。迄今为止,大多数使用纳米孔序列进行的研究均报告了适用范围狭窄的流程,通常使用特定的生物信息学方案来检测特定病原体或目标细菌群或分类群,而无需考虑对样品中存在的整个微生物群落进行分析。但是,当前大多数比对器,聚类算法和工具都无法处理Nanopore数据,这对于进行更全面的Nanopore 16S rRNA数据分析仍然是一个挑战

由于分类分配带来的潜在偏差,OTU聚类可能代表了更方便的选择。在这方面,为转录组创新簇开发的新工具可能代表了未来的探索选择。正如一些转录为基础的研究已经与纳米孔进行的,一个可能的替代方法是应用这些品种为工具 de-novo 对源自单个基因的所有转录本进行聚类,并应用相同的策略将样品中16S基因的所有变异聚类。此外,已经开发了其中一些工具来处理纳米孔序列的特定特征,因此,可以用作对来自纳米孔的16S序列实施特定聚类工具的第一种方法。

最后,自从新测序技术的发展以来,数据分析的许多挑战浮出水面。正确使用可用工具有助于扩大对纳米孔的16S数据的使用,以进行微生物成分的首次评估。对于Nanopore,根据该技术的消费者和最终用户的需求,工作主要集中在设计用于碱基识别,样本数据分离和物种分类分配的工具。当然,我们仍处于基因组革命的第一步,未来将为扩展这些技术和开发新一代强大的生物信息学工具带来新的可能性。有关身份,对齐方式,并且还必须评估每个数据集的数据库选择,特别是如果需要在物种级别进行识别的情况下。ONT于2019年发布的Flowcell新版本(R10)采用了一种新的化学方法,将显蓍改善数据的质量和数量,共识精度达到99%,输出50 Gb。纳米孔输出的所有这些发展将为生物信息学分析带来新的挑战,但也将带来革新微生物生态学研究的新机会。

0 人点赞