前言
本文是第一次借助翻译软件完成。因为原文太长了,我觉得都很重要,又想减轻工作量,所以只能妥协一下,先用软件翻译一遍,在逐句检查修改,尽量用自己的话概括表述。但是还有不少句子翻译气息浓厚。原文信息量非常大,对于微生物采样是非常好的指导,感兴趣还是自行阅读原文吧。
ps:我一直很反感全文翻译的文献,不仅因为翻译气息太重,语序和正常中文不符,不利于阅读;且“莫得灵魂”,没有写作者自己的理解与概括。但是对于这种长文的提炼确实工作量太大,自己没有那么多的时间和精力,因此偷懒一次。
pps:本文作为扩增子综述系列的第一篇。这个系列想了很久了,由于楞次定律的阻挠一直没有开始。
ppps:假期把西游记后传又看了一遍,真好看!
pppps:我发现我写的自认为不错的文章经常没几个人看,而一些我认为没啥内容的看得人反倒很多。现在也没有摸清楚读者的喜好。。。
摘要
关于采样方法的讨论目前还很少。作者回顾了近三年来陆地和淡水生态系统研究中使用的野外采样方法的文献(n = 75)。发现95% (n = 71)的研究使用了主观的和不恰当的抽样方法。作者估计仅有约5%的研究重现性较好。采样方法需要受到更多的关注,以确保可靠的结果和未来的重现性。方法必须尽可能的完整和准确,并尽量减少主观性。
1 |简介
从环境中收集土壤、组织和水样品,从这些样品中提取DNA(eDNA)并进行PCR扩增,使用罗氏454焦磷酸测序、Illumina MiSeq、Ion Torrent和PacBio等平台对所得反应产物进行测序,并从序列中鉴定物种。这种方法被称为“metabarcoding”,已广泛用于研究细菌、古细菌、真菌和浮游生物群落。
一个关键步骤是从环境中收集样本。样本收集涉及一系列决策,这些决策对如何分析和解释数据具有重要意义。有效的推论严重依赖于有效的采样技术。此外,在特定地点和特定时间采集样本只能进行一次。而随后的步骤(例如PCR、测序和生物信息学分析)却可以重复进行。
eDNA的研究和宏观生态学相比有几个独特的特征:
首先,eDNA研究通常集中在微生物或其他难以观察的物种上。因此,生物多样性的复杂性使得物种大小不能来指导取样设计。例如植物群落取样中,可以根据群落中植物的大小来调整样地的大小(森林中的样地较大,草地中的样地较小)。
第二,在eDNA采样中,由于需要实验和分析,样本采集和看到结果之间存在显著的时间延迟。这与传统的抽样形成了鲜明对比,传统抽样几乎是可以立即获得数据。
第三,eDNA取样通常是破坏性的,因为样本会被移除(例如土壤芯和叶片穿孔),阻止了完全相同位置的重新测量。这对于测量随时间变化的研究有影响,因为作者不能重复测量相同的采样点。
第四,许多eDNA取样工作集中于物种丰富的群落,具有高度的时空异质性。
第五, eDNA取样常常被低估。
最后,样本之间和外来来源的样本污染,在eDNA采样中可能比在基于可见生物的采样中更成问题。
本综述内容包括
(a)评价从陆地和淡水系统收集eDNA样本的现有方法
(b)提出可用于评估取样方法的标准
(c)就如何改进方法提供指导
(d)确定需要解决的研究问题,以便改进现有的取样方法。
表1.名词解释
表2 采样过程包含的问题(重要!)
2 |方法
对陆地和淡水生物多样性的metabarcoding研究中目前使用的采样方案进行了评估。在2015年12月3日对文献进行搜索,将结果限制在2013、2014、 2015年发表的研究论文。共得到275篇论文,从其中排除了古代DNA研究、综述、实验室实验、完全的工业化和生物体内微生物研究。如果从一个样地中发表了一篇以上的论文,这些论文被视为一个单一的project。最终产生了75个独立的project。作者确定了每项研究中使用的方法,并确定了这些方法是否可能引入偏差或主观性,以及这些方法是否被描述得足够详细,以至于可以被其他研究者重复。
3 |结果和讨论
01 |Sampling universe
所有采样都发生在“采样领域”中。定义采样范围需要指定采样要代表的区域以及从潜在采样中排除该区域部分的标准(包括安全性和实用性约束)。指定采样领域是重复研究的必要前提,因为重复需要知道应该采样哪些区域。此外,除非定义了抽样的统一方法,否则无法将结果外推至更大的区域。如果没有明确界定结果适用于哪些领域,就无法解释结果。
结果表明,大多数论文(92%)没有定义取样的统一方法,他们详细描述了取样位置,但没有描述这些位置是如何被选择来代表任何更大的区域的。描述样本位置提供了研究的具体信息,但不允许其他研究人员将结果与其他区域的可比结果进行比较。
02
|Representative,haphazard, regular or random samples
一旦定义了采样领域,就必须使用客观或主观的方法来确定采样的location或plot。客观方法的例子包括“在湖的最深处”、“沿着特定轨道的轮廓在200米距离内随机生成”或使用基于网格的布局。客观方法的特征是基于真实随机、基于网格或更复杂的采样设计,或者在某些情况下基于明确定义的标准(例如 “最深点”)。
相比之下,主观抽样设计只是粗略地指定了样地的位置,确切的位置由研究者选择,通常是为了既能代表一个地点,又能避免不正常或受干扰的地点。这种方法受主观影响较大,每个人对代表性的理解可能不同。但这并不意味着必须在任何地方取样,而是取样范围必须清晰客观地定义。
最后一种选择是样地被随意地放置在大的类别中。随机抽样是主观抽样的一个极端。在许多情况下随机抽样包含了很强的便利性,但也使得其他人的重复几乎不可能。
作者发现只有10%的研究使用了明确定义的客观抽样方案。一些研究(5%)声称样地位置是随机的,但是没有证据表明随机化是如何进行的。另有5%的研究描述了明显主观的方法,超过80%的研究没有明确指出如何确定样地位置。
有人认为真正的随机性和重复是生态设计中仅有的两个基本概念。此外,文献中未能描述样本的位置使得重复变得不可能,因为没有未来的研究者能够确定他们在选择样本位置时使用了相同的标准。
03
|Size of area sampled
样地面积影响生物多样性,来自大样地面积的几个子样本往往比来自较小样地面积的相同数量的子样本得到更高的多样性。75项研究中有29项(39%)未报告样地面积。
很多研究中作者描述了样地面积,但没有说明选择该面积的原因。各种研究在样地面积上的高度差异使得结果比较更加困难。除非从同一地区取样,否则无法比较物种丰富度的估计值。现有研究中单点采样和20 ×20米区域抽样比较流行。
04
|Determining the location of subsamples within plots
在不同的研究中,单个子样本在样地中的位置也有很大的不同。子样本可以基于规则的模式明确定位,或者也可以随机、随意的分布在整个样地中。实际采样过程中很难区分随机(random)和随意(haphazar)带来的主观性。随意和主观的方法除了方便之外没有明显的优势。
在每个样地中有一个以上子样本的研究中,作者发现20%的研究使用常规或随机抽样。主观方法很常见(17%),通常带有规定的限制条件(例如样本之间的最小距离和与树木等特征的距离)。然而大多数研究没有报告子样本是如何选择的(54.5%)。
05
|Determining how many samples to take
重复是采样过程最关键的方面之一。20项研究(27%)的总重复少于6次。而另外一些研究却有多大350多个重复。
最佳重复数量的确定在很大程度上取决于所提出的问题,因此在不同的研究中会有所不同。鉴于采样和分析的成本,欠采样(undersample)和过采样(oversample)都需要尽量避免。
75项研究中,没有一项给出了确定重复数量的理由。另一方面,100%的研究报告了他们的样本量。
06
|Subsampling
样本再分析之前可以选择是否混合(pooling)。混合可以大大降低后续分析的成本,并且在研究目标是描述大规模模式的情况下也是合适的。混合的效果因物种类别和研究的目的而异。Osborne等人发现,混合检测到的差异比不混合检测到的差异小,但并未导致站点间差异发生变化。然而另一项研究发现,与细菌相比,混合大大降低了检测稀有物种的能力,特别是真菌。不混合子样本的另一个优点是它允许估计样地内的差异。两项研究表明,PCR前后的混合对群落结构影响不大。
是否合并取决于对成本的评估,包括增加重复和增加的精确度之间的权衡,被研究生物的空间异质性,以及合并对被分析群落指标的潜在影响。
07
|Substrate
一项研究的再现性取决于对实际基质取样的精确度。特别是在土壤取样的情况下,土壤的定义可以包括或排除落叶层和其他有机层。考虑到土壤生物群在不同土壤层中的垂直分层,选择包括或排除哪些层会对不同的群落产生显著影响。在作者对土壤取样的51项研究中,82%没有说明样本中是否包含垃圾。
08
|Sample quality assurance
土壤和其他生态取样可能是一项极其肮脏(filthy)的工作,通常在恶劣的天气和偏远的地方进行(扎心了…)。这对获得干净的DNA样品是一个非常现实的挑战,因为任何外来物质都可能带来污染。污染的主要来源包括取样设备上预先存在的DNA、研究人员的DNA及其个人微生物群、样品之间的残留物,以及对于某些样品DNA会从表面无意中进入样品。确定某些物种是否为污染物可能具有一定的困难,例如一些常见的人类相关微生物如真菌马拉色菌也常见于环境样品中。
09
|Field negative controls
目前的阴性对照可能仅局限于实验室污染。对采样现场的污染进行控制可能更重要。在所有研究中没有研究报告是否或如何纳入现场阴性对照。
010
|Sample contamination
现场取样设备也会污染样品。一些研究通过一次性预消毒设备避免污染,特别是在水采样过程。当取样设备被重复使用时,可浸泡在次氯酸钠溶液中有效的去污,前提是暴露时间和溶液浓度足够长。在收集大量样本的情况下,使用多套取样设备可能是最有效的,这样可以在必须净化之前采集多个样本。
消毒和净化取样设备这两个概念之间存在一些混淆。一些研究采用酒精杀死微生物来杀菌,但酒精并不能去除DNA污染。事实上乙醇通常用于DNA的沉淀和加工。
在作者调查的75项研究中,59项没有具体说明取样设备的去污情况,8项研究的取样装置是干净的或无菌的,但没有给出细节;3项使用过的乙醇;1项(水采样)重复清洗过泵,2项使用过漂白剂;1项指定高压灭菌勺子。鉴于酒精(不能有效去除DNA)和漂白剂或高压灭菌一样被广泛报道,许多没有报道净化程序的研究可能使用了无效的技术。
对某些取样来说,DNA从表面移动到样品中是一个特殊的问题,包括土壤或深层水的取样或枯木内部的取样。为了避免这种情况可以移除表面或者将样品打碎或裂开,这样取样工具就不会从外表面进入内部。
011
|Sample storage and transport
从采集样本的那一刻起,通过运输到实验室,以及在提取脱DNA之前在实验室中储存期间,DNA可能会受到样本储存的影响。有研究表明,储存条件导致了群落组成的微小变化。样本存储过程可能会导致一些物种的丰度下降、冷藏过程中适应寒冷微生物的生长以及储藏过程中DNA的断裂。重要决策包括样品储存温度、天然厌氧样品是否保持厌氧状态以及样品储存时间长度。样本收集和冷冻之间的推荐时间为2小时。在某些情况下,用化学方法保存样品是可行的,既可以防止微生物的生长,也可以防止DNA的丢失。
许多研究要么快速冷冻样品(10%的研究),要么保持样品在0到4℃之间(34%的研究)。另有11%的样品在室温下储存,虽然不是最佳的,但在某些情况下(非常远距离的取样)是不可避免的,并且所有样品不是都有问题。总的来说,作者发现40%的研究没有具体说明样品运输的温度。另有4%指定-80℃为即时储存温度,但没有给出如何实现的进一步细节。鉴于取样现场条件达到-80℃将是一个巨大的挑战(液氮会将样品温度降低到-196℃),作者表示了他的怀疑。
012
|Metadata
Metadata是指围绕数据的信息,而不是实际样本数据本身。换句话说,元数据就是样本的内容、原因、地点、时间和方式。没有附带的元数据,以前收集的数据很难重用。
013
|Reporting methods
方法的记录和描述是元数据的基本组成部分。如果方法没有完全记录在案,同行评审就不能有效地确保科学的有效性。在超过90%的研究中,关键方法没有被足够详细地描述以允许重复。
014
|Site metadata
目前元数据上传和存档仍然是随意的。
015
|CONCLUSIONS AND RECOMMENDATIONS
总的来说,目前大多数eDNA研究都是基于不完整的采样,采用的很多方法也存在问题。通过各种研究和他们抽样设计的各个方面,作者发现:
1.只有5%的研究提供了足够的信息,允许独立研究者重复取样。
2.在用于eDNA取样的方法中,各种研究之间几乎没有一致性。
3.研究的差异没有记录在案的原因。
4.取样通常并不具备代表性,给结果带来偏差,并使结果难以在不同研究之间进行比较。
5.在许多研究中,在处理DNA污染和样本处理方面存在很多问题,包括储存温度、缺乏有效的DNA净化和缺乏对现场污染的控制。
方法描述的不清楚和太主观是生态学中的一个普遍问题,这个问题在eDNA研究中显得尤为突出。他人研究表明14%-58%的生态学文献缺乏足够的细节,无法用于未来的重复分析。作者发现75篇研究中只有5%的文章具有的再现性,这表明eDNA研究中的情况可能比更广泛的生态学文献中的情况更糟。同样,他人研究表明43%的普通生态学研究没有报告取样点框是如何选择的,相比之下作者在eDNA研究中的发现是80%。21%的生态学研究使用系统或随机方法,相比之下eDNA研究只有10%。这可能在一定程度上反映了eDNA研究中对正在进行的方法学发展的关注,而不是对生物多样性实际测量的关注。但是在75项研究中只有5%主要是关于方法的。
75篇文献结果统计
基于作者的结果,作者认为改进采样方案在分子生态学中是必不可少的。作者建议采样应该:
1.确保数据符合其收集的目的,包括具有统计上的稳健性和能够进行分析。作者认为,样本收集应该生成可用于最初实验目的的数据,生成有统计意义的结果。
2.允许另一个研究人员或在将来的某个日期重复,因此既能被完整描述,又不受主观判断的影响,而这些主观判断在不同的研究人员中可能会有所不同。再现性是科学方法的基本原则,自11世纪初就已得到认可。
3.成本低效益高,尽可能简单。考虑到有限的研究预算,取样不应该比必要的条件更昂贵或困难。
4.寿命长。包括最大限度地减少所需的特殊技巧,以便将来能够重复使用相同的方法。
5.基于证据。将采样方案建立在证据基础上,更有可能使方法更加可靠,也有助于说服其他研究人员一致地使用方法。
6.确保样本对意料之外的分析和结果是可靠的。数据可能有助于超出最初预期范围的分析。考虑到从环境样品中收集DNA的费用和努力,最好有对这些额外分析有效的方法,即使原始研究不需要有效。
表3.针对表2问题的解决方法
THE END
改进采样的一个有希望的方法是制定标准的、完全记录在案的流程。标准化流程的一个主要优点是它们允许在验证和改进这些流程方面投入一致的时间和研究资金。
基于DNA的生物多样性评估仍然是一个相对年轻的科学领域。作者在这篇综述中的目的不是对这一领域的开创性研究提出过多的批评,而是指出了在未来可以容易地做出重大改进的方向。