人类基因组时代的泛基因组学

2020-09-29 10:47:49 浏览数 (1)

----/ START /----

今天想分享一个主题:人类基因组时代的泛基因组学。主要内容源自今年《Nature Reviews Genetics》上一篇题为《Pan-genomics in the human genome era》的文章。

文章的作者是约翰霍普金斯大学的计算机科学和生物统计学杰出教授史蒂芬.萨尔兹伯格(Steven Salzberg)和他的博士生(Rachel M. Sherman)。萨尔兹伯格是一位横跨计算机领域和生物学领域的专家,名气很大,他是约翰霍普金斯大学计算生物学中心的主任,同时在计算机系和医学院任职,专门从事基因测序和基因组学应用研究,人类基因组计划的参与者之一,最近还主持了非洲裔美国人的基因组学项目等。开发过很多有名的生物信息算法,大家使用过的生信软件如:bowtie、TopHat、cufflinks等都出自于他的实验室,今天要谈的泛基因组学也是他的研究内容之一。

萨尔兹伯格

2010年,华大基因提出了人类泛基因组学的概念,发表了关于泛基因组学的重要文章,那时我刚刚到华大基因实习,虽然未参与过该项目,但多多少少还是有所了解,后来在丹麦人基因组中也对此进行了探索。这里我参照萨尔兹伯格的综述文章将内容分为以下 6 个部分,同时也融入部分我对泛基因组学的理解:

  • 单一“参考基因组”分析模式的局限;
  • “泛基因组学”概念的由来和定义
  • 构建物种泛基因组的意义;
  • 人类泛基因组的构建;
  • 泛基因组参考序列的记录和表示方式;
  • 泛基因组分析的应用和未来展望。

单一“参考基因组”分析模式的局限

现在的基因组学研究无一例外都是单一“参考基因组(Reference genome)”模式的, 这样的模式是有局限的。但要理解它的局限性,我们需要先知道这个单一参考基因组是怎么来的。

参考基因组,其实就是我们平时所说的“参考序列”, 一般是每个物种“典型”个体的基因组序列——这里的“典型”泛指一个或者多个特定个体(这些个体是研究者所能获得样本,它们未必是最最具代表性的,这个要注意)。我们熟知的 “人类基因组计划(HGP)” 测序得到的基因组序列其实只是人类这个物种少量个体的基因组序列,我们将它称之为“人类基因组参考序列”,它由若干个高加索人的基因组序列合并而成

我们知道基因组学的研究都需要围绕 “参考基因组” 来开展,因此它的作用和意义非凡。以人类基因组学研究为例,通常情况下我们要将新测序的人类基因组数据和参考基因组进行比对,才能够获得个体、人群之间所存在的序列差异,然后再进行后续研究,比如寻找疾病的遗传起源、肿瘤的易感因子、药物开发的靶点、特定目的基因芯片的设计等,参考序列就是这个过程中最重要的标准参照物——它是一个基因组学的”参考坐标系“

但是,随着群体基因组研究规模的增大,这种单一参考基因组的模式就逐渐暴露出了它的不足之处。其中最重要的是,它无法包含(也不能表达)群体中所有个体的基因序列变化情况。因为,它的序列仅仅由一个或者多个特定个体的基因组信息合并而成,这些个体还不一定是种群中最具代表性的样本,所以它实际上是高度特异的,通常只能较好地代表一部分个体。因此,它不可避免地遗漏了很多在群体中存在的DNA序列,这在群体遗传学、特别是疾病基因组学上就会带来问题,比如可能由于完全丢失了和疾病相关的序列信息,导致无法对某类疾病进行完整的研究。

因此,学者们就提出了构建一个能够包含物种中所有 DNA 序列信息的理想基因组集合,这个“序列集合” 就称之为泛基因组(Pan-genome),也是本文接下来的内容。

不过我要先说明一点,泛基因组其实并不是要大家为每个不同地区的人群去组装一个所谓”特定地区人群参考序列“。我有时候会看到国内外有些团队和机构在干这个事,我觉得这完全不对(关于这一点我也欢迎大家发表自己的看法)。参考序列是一个参考坐标系,就像度量衡一样,它是需要统一的,它和测量长度的标准单位,测量质量标准单位之间并没有本质的差别,否则大家各用各的坐标体系,那么彼此的研究成果就说不到一块去了,结果与结果之间也无法共享,更无法高效复用现有的数据集和研究结论,就连基因你都得重新注释,完全就是一个事倍功半(可能连“半”都达不到)的活。

“泛基因组学” 概念的由来和定义

泛基因组——这里还不是人类泛基因组(下文详述),这个概念最初是美国马里兰大学的 Tetterlin 教授,在 2005 年研究无乳链球菌的多种不同致病菌株时提出的。不过他当时的定义和现在已经有些差别了,他当时描述为,共享于所有菌株的 “核心基因组(core genome)” 和分散在单个或者部分菌株基因组中的 “非必需基因组(Dispensable genome)” 的总和,如图1。

图1. Core genome and dispensable genome

从他的定义中我们知道,泛基因组包含了两个部分,一个是共享于物种的公有序列(即,core genome)和分散在部分个体里的差异序列(即,dispensable genome)。构建泛基因组的关键是汇集第二部分的差异序列,这是物种中差异化最大、最为多样化的序列信息

不过,由于时代的关系,泛基因组在不同类型的物种里面,定义上还是有些区别的。

特别是在 Tetterlin 刚提出这个概念时,他主要还是针对细菌这一类原核生物的。因此,那时研究人员所说的泛基因组,通常是指细菌的基因(gene)序列而不是全部的基因组(genome)序列。当时这样定义有其合理之处,因为,在原核生物中,绝大部分的 DNA 序列其实就是有功能的基因序列,而且不同菌株间基因的差异还比较大。在某些已经发现的细菌基因组中,菌株间基因的差异甚至可以达到20%-40%,而这些差异通常就和菌株它们在人群中的致病性、耐药性等密切相关。

真核生物泛基因组的定义和所包含的内容就与原核生物不同了,它不能仅围绕基因本身,因为在真核生物的基因组中,有很大一部分(超过50%)并不是编码基因的序列(外显子),而是基因间区(intergenic)、内含子(Intron)这一类。例如,在人类基因组中,基因编码序列仅占到了全基因组的 ~2%,如果仅用这些序列来描述人类的泛基因组那肯定是不对的。

因此,真核生物的泛基因组定义的是物种全体的 DNA序列总集合。如果我们非要将其中的编码序列拎出来造一个编码序列的泛基因组,那么可以叫:“基因泛基因组(genic pan-genome)”,图2 是关于真核生物泛基因组的示意图。

图2. 真核生物泛基因组

另外,除了泛基因组之外,最近还有一种新的泛分析,叫做:“泛转录组(Pan-stanscriptome)”。顾名思义,它是物种全体转录出来的 RNA 序列总集合,用来特指基因表达和转录上的泛分析。

这类分析在高等植物中比较常见,有两个方面的原因:第一,泛转录组的研究成本较低,研究起来也要更方便;第二,植物基因组通常都比较巨大而且序列复杂(通常都有高杂合、高重复的特点),以目前的技术来说,并不容易构建它们的泛基因组。目前已经拥有泛转录组的植物主要是一些重要的农作物,如玉米、小麦这一类。

构建物种泛基因组的意义

说了这么多,那 “泛基因组” 除了作为一个学术概念之外,它有实际的生物学或者医学意义吗?

对于细菌的泛基因组来说,就如上面提到的,细菌泛基因组有助于我们研究菌株内的遗传多样性,深入了解菌株致病性、毒力和耐药性差异的根本原因,而且还可以帮助我们预测新菌株的危害性。这对于人类健康来说有实际的意义。

对于真核生物的泛基因组特别是“植物泛基因组”研究来说意义也很大。现在已经有多个农作物的物种泛基因组被构建出来了,这其中包括水稻、西红柿、大豆、白菜、西兰花和向日葵等。

构建农作物泛基因组的目的通常都是为了了解作物基因组上的哪些突变会影响农作物的表型,从而改善育种。

尽管人类自8000年前开始驯化农作物以来,我们就已经对作物进行了多次选择性育种,但是我们通常并不了解所选定作物表型背后关联到的基因都是什么,有时甚至会留下具有不良表型的基因。比如,有些能够产出更大果实的品种可能缺乏抗病基因。通过泛基因组分析,可以用来揭示农作物表型和特定基因型的关联,反过来就可以帮助我们定向地进行作物育种和基因改良,然后创造出更高产、更具抗病性、更长保质期和口感更好的作物。

人类泛基因组的构建

我们应该注意到自 2015 年以来,大规模的人类基因组项目变多了(图3)。但迄今为止,也没有哪一个项目可以做到真正囊括全球各个不同的人类群体,并产生出一个包含全部人类群体变异序列并且可分析的泛基因组。

图3. 全球各地区大规模基因组研究计划 by 刘荣 & 黄树嘉

实现全人群的泛基因组,目前看起来还比较遥远,但针对特定地区或者国家的人群泛基因组(也就是Population-specific pan-genome)却已经有眉目了。这其中比较有代表性的是美国国家人类基因组研究所发起和资助的项目。而且,他们有一个项目计划收集350个具有不同遗传背景的个体构建全人群的泛基因组序列——意图实现全人群泛基因组。

构建人类泛基因组需要以人类基因组变异数据为基础。这些变异不仅要包括SNPs、短长度的Indels,也要包含基因组结构性变异(SVs)、拷贝数变异(CNV)等。

自人类基因组计划以来,我们代表性的变异数据集上已经有了一些进展,比如dbSNPs、ClinVar,以及孟德尔遗传病变异数据库(OMIM)。其中,ClinVar 和 OMIM 属于已知与临床性状相关联的变异集合。但这些变异集合都只是一些小长度的变异,对于基因组上长度超过 50bp 的高质量结构性变异来说,数量还很有限,这其中 dbVar、DGV和DGVa,已经算是人类基因组上一些比较大的结构性变异集合了——但其实都很小。

为了进一步扩大变异集合,国际上有多个人类基因组变异检测的项目在进行,这其中包括高深度千人基因组计划、TOPMed、Simons基因组多样性计划以及 gnomAD。特别是 gnomAD,今年成果很显著,6月份的时候以专刊的形式在Nature期刊上发了4篇相关的文章,其中也包括结构性变异的成果。

不过,在以上项目中,千人基因组项目无疑是最早开展的大型全球性人类基因组测序计划,它分为三期,从2009年开始,一共测序了世界上26个不同的群体、2504个人的基因组,它所产出的人类基因组变异数据库也是目前最成熟和用的最广的一个。但千人基因组项目发起时使用的是低深度测序技术,这导致在基因组变异检测方面存在局限性——特别是难以检测结构性变异。因此在2019年的时候,千人基因组启动了一个高深度重测序计划,目的就是为了弥补前期的局限并提升现有变异检测的质量,不过目前尚未有关于这一块的新进展。

除了要获得基因组完整的结构性变异之外,构建人类泛基因组还面临着另一个挑战,那就是Novel sequence 的检测。Novel sequence与前面的序列变异不同,序列变异指的都是那些和参考基因组相比存在差别的序列信息,大多数情况下这些序列还是可以通过比对,然后在参考基因组上找到信号的。但 Novel sequence 是参考基因组上完全丢失的序列内容,它不在参考基因组上,因此这是无法通过直接比对获得的,而是要进行高深度测序和序列组装(或者采用单分子测序技术获得长序列)才能发现。

Simons基因组多样性项目是寻找人类 Novel sequence 方面的一个代表。它收了全球各地 142 个不同群体、一共300个样本的基因组数据,然后高深度(30x-40x)测序,并进行序列组装,最后发现平均每个个体有约 5.2M 的新序列(Novel sequence)无法比对到人类参考基因组上。

除了 Simons 项目之外,TOPMed 项目也在这方面有所发现。TOPMed 很大!有 53,831 个样本,使用的测序方法也是短序列测序方法,但它平均每个样本只发现了2.2M 的 Novel sequence,之所以比 Simons 项目少,可能是因为这个项目的质控条件比较严格。

另外,虽然说现在全球大型人类基因组项目也不少,但用这些项目来构建泛基因组帮助是有的,但也都有一些很明显的局限性,原因就在于:

首先,它们基本上都是短读长测序数据,这本身就不利于基因组完整变异的检测。而且短序列也并不利于组装,常常会由于读长不足的关系丢失一部分基因组上的大长度插入序列。还有就是这些项目的首要目标其实并不是为了 Novel sequence 和泛基因组,泛基因组分析通常都只是这些项目一个次要的、补充性的边角料分析。最后,这些项目即使发现了相关的变异信息和 Novel sequence,也没有一个统一的、标准化的方式来将这些新变异、新序列进行整合、或者纳入到一个可被使用的所谓”人类泛基因组序列集合“中。

另外,我们目前甚至也没有人类染色体从端至端的完整序列拼接结果,这也会导致我们难以分辨一些 DNA 序列到底应该落在哪。不同的人群基因组项目对的 Novel sequence 数量和长度也存在着差异,有时候差异还十分巨大。比如 1.5万冰岛人的基因组项目和910个非洲裔基因组项目所获得的 Novel sequence 分别是0.33Mb和295.5Mb。

非洲裔的 Novel sequence 比起冰岛人的要多得多,这很可能是由于人类参考基因组是由欧洲人所构成的有关。现代欧洲人其实只是非洲人中的一个子集,在走出非洲之后逐渐演变而来,这个子集自然无法包含更多属于非洲裔的特有序列。

如果要比较有效地解决结构性变异和Novel sequence的检测问题,我们还是得通过长读长测序技术和序列组装技术。尽可能将每个个体的基因组(甚至单倍体基因组)组装出来,这样得到的差异序列才能更好地用于泛基因组序列的构建。

如何记录和表示泛基因组序列

泛基因组序列有两个部分:核心基因组和分散在个别群体中的DNA序列,如何将它们有效地记录起来,并用在实际项目中,目前来看有三种可能的方式。

第一个是线性记录,就是将这些额外的序列直接作为 Alternate 序列收录在原来的人类参考基因组之中,如同另一条染色体序列一般,GRCh38 参考基因组中大量的 ALT 序列就是这一类。使用的时候,它们相当于被看成是另外的染色体序列。这样的表示方式好处是简单,但是却丢失了一些属于这些新序列的信息,比如它们原本应该是在某一条染色体上的特定位置的信息。

第二个方式,称之为图表示(graphical representation)。这是一个在逻辑上更加合适的表达方式,如图4 所示。

图4. Graphical genome

它以原来的参考基因组为框架,以一个个的碱基作为图的节点,碱基之间的前后关系作为图的边,然后在存在序列差异的地方自然形成不同的分支,从而逐渐构建出一个图基因组。这个图基因组可以依据新序列的加入不断扩展变化,最终它将会成为一个符合全人群的泛基因组图谱。这和上面的线性基因组是不同的,图基因组是一个二维序列图谱。

但要使用这样的一个图基因组来进行分析,就无法沿用当前适合于线性参考基因组的算法了,而是必须开发一系列全新的生物信息学方法。目前适合用在图基因组方面的算法有VG、SevenBridges、aSGAL和GraphAligner。

图基因组虽然逻辑合理,表示方式也很形象,但遗憾的是缺点也很多。首先,它很容易产生更多的歧义比对结果(如下图5)。

图5. 歧义比对

在图5中,本来测序 read 只会比对在一个地方的,但现在却会同时比对到图中三个不同的分支序列上,而且由于发生差异的情况都是相同的,这就导致这个 read 在这三个位置上看起来都是合理的,从而形成了歧义,这样的歧义结果会明显增加变异检测的难度——而且难以排除。

另外,序列错误比对情况增多,这随着而来的就是更多假阳性变异结果的检出。

以上这两个问题是应用图基因组来做研究的明显挑战。至于是否还有其它方面的挑战也欢迎大家在留言区一起来讨论。

第三个方法是混合记录。将人类泛基因组同时以图基因组和线性基因组的方式进行存储,如图6所示。

图6. 混合模式

这样可以同时发挥这两个方式的优点,目的其实是为了减少由图基因组所带来的歧义情况。不过这在进行数据分析的时候就需要分两个步骤了,要分别对图基因组和线性基因组进行比对,然后再结合这两个比对结果完成基因组上的序列差异分析。

泛基因组分析的应用和未来展望

关于泛基因组分析的应用,其实在上文就已经有所阐述了。概括来讲,泛基因组分析可以提升我们对物种基因组的认识,能够获得新见解。比如,在细菌泛基因组中,我们可以鉴定细菌(如大肠杆菌、幽门螺旋杆菌、人体共生微生物等)的新致病菌株、并探索其中的致病基因,这对于人类健康来说意义重大。

在农作物泛基因组方面,有一个例子是通过对番茄进行泛基因组分析,我们就对影响番茄开花时间、果实产量、风味等方面的性状有了更新更深刻的理解。例如在泛分析之后,研究人员发现了一个名为 TomLoxC 的番茄基因,它的基因启动子区域上有一个~4kbp的序列替换,这种序列变异在以前的研究中是发现不了的,而这个序列替换明显影响了番茄的风味。

对于人类来说,泛基因组分析的一个直接好处是能够有效发现属于单个个体(或散在个体)的特殊序列变异,特别是在线性参考基因组中无法被检测出来的变异信息。然后研究这些变异是否和一些疾病、个体表型特征相关联,这些表型既可以是有益的特征、也可以是有害的特征。

而群体中有很多这样的序列其实是与疾病或者预防疾病相关的,对于单一参考基因组往往都是无法将其包含在其中的(图7),这个难题也只有通过泛基因组分析才能解决。

图7. 冰岛人特有变异

这个图来自一个关于冰岛人基因组的研究,通过泛基因组分析中研究人员新发现了这一个长度达到 766bp 的插入序列在冰岛人群体中高频出现,后来验证得知这个突变和降低心肌梗塞的风险相关。

这样的情况非常值得我们关注,特别是在以后的基因组项目研究中都不应忽略泛分析。不过构建全人群的泛基因组序列现在依然困难重重,现阶段看来也只有围绕特定人群的泛基因组序列构建是可行的,冰岛人和丹麦人的研究就是这样的例子。另外就是,泛基因组分析需要更加新颖的计算机方法和生物信息学方法。

但不管怎么说,现在情况就是这样,在不久的将来我们的基因组学研究可能都会摆脱对单一人类参考基因组的依赖了,做好准备吧。

参考文献 Pan-genomics in the human genome era

What I cannot create, I do not understand. - Richard P.Feynman(理查德.菲利普斯.费曼)

0 人点赞