近日德国,澳大利亚和中国科学家在Nature上联合发表了大麦泛基因组的研究论文。今天,借本次推文与大家解读一下该Nature大作。
研究背景
大麦(Hordeum vulgare L.)是古文明的主食,现今主要用于动物饲料和麦芽酿酒。大麦比其近亲小麦更能适应恶劣的环境条件,能生活在包括埃塞俄比亚和西藏高地在内的恶劣气候区域中。另外大麦也是用于研究小麦的模式物种之一。
在进化过程中,由于自然选择和人工选择等因素的影响,每个个体都存在结构变异与其独特的遗传性状。随着测序技术的发展,科学家发现,使用单一个体的参考基因组已不能完全获取该物种的遗传信息。如果仅使用单一个体的参考基因组进行分析,会丢失大量遗传信息。因此需要泛基因组,解决这一问题。
结果
二十个大麦参考基因组
为了选出最具有代表性和遗传多样性的大麦,研究者对德国国家基因库中超过22,000个大麦种进行物种范围多样性的的调查。最后根据选取了位于前六个主要成分分支中的种质。另外根据地理起源,种质历史和育种习惯,又选取了另外14个大麦的种质。
这20个具有代表性的大麦包括一个野生种,八个栽培种和十一个地方种。接着,对这二十个大麦进行测序,获得对应染色体水平的组装,它们的基因组大小约为3.8Gb-4.5Gb,N50范围为5.0-42.7 Mb,共注释了35859-40044个基因。
大麦泛基因组的构建
研究者通过全基因组比较和单拷贝序列聚类的方法构建了大麦泛基因组,并鉴定了1586262个存在或者缺失变异。为了测定每个种质对泛基因组的贡献,研究者统计了每个个体的单拷贝区域,单拷贝序列的平均累计大小为478Mb(基因组的9.5%),其中共有的单拷贝区域总计402.5Mb,平均每个基因组独有的单拷贝序列2.9 Mb。
为了测试低测序深度数据在大麦泛基因组中的遗传分析的适用性,研究者对3X鸟枪法测序的200个驯化和100个野生大麦品种,进行遗传分析,其结果显示和基于SNP的结果高度一致,说了大麦泛基因组的适用性。另外研究者使用基于k-mer的无参全基因组关联扫描,发现与性状相关的泛基因组标记物与基因位置高精度关联,并且可以提供其对应的单倍型信息。
异位变异图谱
染色体水平的全基因组比较可以揭示全基因组的大规模序列重排。研究者发现了大量倒位现象(>5 Mb)。为了进一步揭示不同种质资源间的倒位现象,研究者通过Hi-C技术对69个大麦品种进行了反扫描,发现了42个异位,大小为4-141Mb,主要存在于在着丝粒区域发生。
同时研究者还对2H染色体和7H染色体上频繁发生的两个异位进行了更深入的分析,结果表明7H染色体上具有最大的异位(141Mb),可能是由于20世纪60年代的突变育种导致的。
2H染色体上的异位较小(10Mb),并仅发生在已经驯化的欧洲的小麦栽培种中,可能会影响其这个区域中与地理范围扩展相关的开花基因HvCEN的表达。
研究方法
大致了解完结果之后,我们更需要研究的是实验方法,更助于我们理解该研究的独到之处。
基因组组装与注释
在对20个种质组装中,. 其中16个种质使用Minia SOAPDenovo TRITEX的方法,其中三个种质使用NRGene公司的DeNovoMagic方法,最后一个种质使用W2rap的策略。其中三个种质Morex, Barke 和 HOR是具有转录组数据二代,根据转录本和蛋白质序列的相似性,这三个种质先完成了高质量的注释。剩下的种质根据,基因组之间的相似性注释出高质量可信的基因。
可能是因为这些基因组是由多方合作者提供的,总体来说这里组装与注释的方法不是完美的。因为不同种质间,组装和注释的方法不完全一致,可能会导致一些结构变异是由组装的差异产生的,另外一些独特的基因可能没有被注释出来,因为缺乏另外17个个体的转录组数据。
重复序列注释
在这里,对20个大麦跑品种使用了同一套转座子注释策略。先根据序列的同源性。在REdat数据库中,对转座子和串联重复进行搜索和分类。接着使用vmatch工具过滤,去除冗余(-d -p -l 75 -identity 70 -seedlength 12 -exdrop 5)。过滤完后,进一步使用LTRharvest进行LTR反转录转座子的扫描。得到的候选基因进一步使用hmmer3来进行pfam结构域的鉴定。
PAV的探测和验证
这里PAV的探测使用了全基因组互相比较的策略。该研究使用Morex个体作为参考基因组,将其它个体使用Minimap2比较到Morex基因组上,用Assemblytics找出结构变异(删除和插入结构变异)。另外还对含有5% gaps (Ns) 和 嵌套 的PAV进行过滤。作者使用了90个MorexBarke重组自交系对找出来的PAV进一步验证。
基于K-mers的全基因组关联分析
这个基于K-mersGWAS分析是该文章中的一个亮点。首先使用bedtools确定了与单拷贝区域的PAV,接着从PAV内的单拷贝区域检索步长为2 bp的k- mer序列。进一步使用BBDuk在序列读取中对提取的k- mer序列的丰度进行计数。k- mer计数获得了300个不同大麦品种(低深度鸟枪测序)的全基因组基因分型的数据。最后使用R对样本之间reads的深度差异进行标准化和归一化,再使用GAPIT3进行GWAS分析。
单拷贝的泛基因组的构建
为了鉴定每个基因组中的单拷贝区域,使用BBDuk掩盖出现多于31次的k-mers覆盖的基因组区域。基于屏蔽,以.bed格式获取每个基因组的单拷贝区域,随后使用BEDTools检索相关序列。将来自所有基因组的单拷贝序列组合在一起。使用blast进行all-against-all blast搜索,对blast结果(>90% identity and minimum 80% alignment length)进行过滤,最后使用igraph包进行聚类。
小结
该研究是一个多国大范围合作研究重要农作物中,发大文章的典范。研究思路清晰,故事也很突出。
本文对不同品种间基因组大片段插入/缺失变异(PAV)进行了鉴定,共发现了1,586,262个PAV,并观察到低频变异的富集;同时还利用200个驯化大麦和100个野生大麦的全基因组数据进行结构变异的定量遗传分析。此项研究还揭示大麦基因组个体之间在基因数量以及携带遗传信息上,各条染色体大部分排列和定向存在很大的差异,大麦基因组中的这些“结构”变化可能严重阻碍杂交育种中重要目标性状的重组。大麦泛基因组的出现能进一步促进大麦种质资源利用、重要农艺性状形成的分子机制的理解以及优质高产抗逆优良品种的培育等方面均具有深远意义。
由于该泛基因组的构建主要是基于地方种和栽培种,日后如果能够加入野生种的大麦,必定能够进一步研究大麦其驯化过程中产生的基因差异与的结构变异。另外,除了异位的结构变异之外,缺乏对其它的结构变异的研究信息。鸟枪法测序的数据深度较低,需要更多的高深度测序数据来进一步挖掘大麦品系之间的遗传多样性与差异。
以上就是我简单对这个文章的解读,如有哪里解读不够准确,欢迎指出。对该文章有兴趣的小伙伴,可以点击原文链接查看。