人类参考基因组的确定和更新得益于人类基因组计划的开展和技术的进步,目前最新版本的GRCh38 (hg38)人类参考基因组是7年前发布的,但是大多科研机构和临床实验室对最新版本的使用还保持谨慎的态度,而GRCh37 (hg19)参考基因组仍被广泛使用。2021年7月1日发表在《美国人类遗传学杂志》(American Journal of Human Genetics)上的一项研究中贝勒医学院(Baylor College of Medicine)人类基因组测序中心(Human Genome Sequencing Center)的研究人员利用大规模全外显子组测序数据确认了两种参考基因组之间的基因变异差异,这项研究可以为那些正在考虑转换使用最新版本的机构提供指导。
摘要
尽管人类参考基因组GRCh38版本已经发布了七年,但是大多数科研和临床实验室仍在使用GRCh37版本。到目前为止,还没有任何一项研究能根据大规模的外显子组测序数据来量化使用不同参考基因组版本对检测罕见和常见疾病相关的变异的影响。我们采用GRCh37和GRCh38参考基因组,对1572个全外显子组测序数据(来源于孟德尔疾病患者及其家庭成员)进行了单核苷酸变异(SNVs)和插入缺失变异(indels)分析。我们发现,基于不同的参考基因组版本,共有1.5% 的 SNVs 和2.0% 的 indels 不一致。值得注意的是,其中76.6%的差异变异富集在离散的不一致参考基因组补丁区域(DISCREPs),而且仅包括了0.9%的全外显子目标捕获区域。这些DISCREPs区域包含了大量的基因组元件,包括片段重复,修补补丁序列,以及已知包含可变单倍型的基因座。我们分析了206个变异结果存在显著差异的基因,其中大部分位于DISCREPs区域,而且是因为reads非唯一比对到基因组参考序列导致变异位点无法识别造成的。这206个基因中,有8个与已知的孟德尔疾病有关,通过全基因组关联分析,有53个与常见表型有关。此外,对变异的解释也可能因为将变异位点的位置转换到其他参考基因组版本而受到影响。总的来说,我们识别了受参考基因组版本选择影响的基因和基因组位点, 包括与人类孟德尔疾病和复杂疾病相关的基因,这些基因需要在研究和临床应用中多加考量。
介绍
随着测序成本的下降和下一代测序(NGS) 技术的发展,科研机构和临床诊断实验室可以建立以NGS基因组技术为中心的分析流程,比如全外显子组测序 (ES)1-4 。尤其是临床实验室经常将ES作为首选检测工具,通过对检测到的变异进行临床解释来诊断罕见的遗传疾病5-7。 ES分析的第一步是将产生的短读序列(reads)与单倍体人类参考基因组序列进行比对。
一个完整的人类参考基因组是进行准确、精准和可重复的遗传变异识别和随后的变异解释的先决条件。尽管对短读长变异检测有标准化的最佳实践和指南8-10,变异识别差异仍然存在,并阻碍不同实验室之间的比较和汇总分析11-13 。这些变异检测的差异会导致后续变异解释之间的冲突,并阻碍了临床测序数据准确转化为精准医疗的诊断目标8。变异识别差异的部分原因是分析流程不一致,部分原因是使用了不同的参考基因组版本14,15 。
当前的“金标准”人类参考基因组版本为GRCh37(也称为 hg19),由参考基因组联盟(GRC)最初发布于200916并定期更新,直到 2013年其下一代GRCh38(也称为hg38) 发布17 。GRC通过为人类参考基因组提供补丁、修复和高可变基因组区域的可变scaffolds以积极改善参考基因组的组装。修正补丁会更改目前组装的序列,修复人类参考基因组上的一些错误,而替代基因位点和新序列补丁使参考基因组的组装具有等位基因的多样性16,17 。从GRCh37到GRCh38的更新包括:将可变scaffolds用于高度可变的基因组区域、用合成着丝粒序列填补比较大的百万碱基水平的缺口、以及对数千个错误组装区域和人工组装进行校正和缺口填充18。以上这些更新不仅解决了特异性位点的问题,并且通过纠正全基因组的错误比对从整体上改善了全基因组的比对和变异识别17。例如,在使用 GRCh38参考基因组对121个全基因组进行分析时,在178个已知结构变异区域中平均52个可以对应上替代基因位点,优于最初的基因组组装版本19。此外,对30个外显子组的比较研究表明,由于提高了短reads的比对率,GRCh38在变异识别上具有优越性15。虽然比对得到改进,但是GRCh38参考基因组也包含了可扩展的替代Contigs集合,如果处理不当,可能会导致错误的变异识别。最近对来自UK Biobank的 50,000个外显子组的重新分析证明了这一点,该分析最初显示的641个基因零变异结果是错误的20。
到目前为止,GRCh37参考基因组已成为许多突破性项目对人类遗传变异进行分类和绘制功能变异图谱的基础21-23。直到最近,人类遗传变异目录和注释才被直接比对到GRCh38上18,24,25。但GRCh37参考基因组和相关基因组资源深深嵌入到当前的许多工作流程中,因此,即便GRCh38已经发布了超过七年,GRCh37在大部分人类基因工具、基因组注释资源和NGS分析流程里仍然是使用最多的参考基因组。因此,系统性地更新至GRCh38的步伐仍然落后,特别是在临床诊断应用中,分析流程的改变需要大量验证才能符合临床标准。全面从GRCh37更新到 GRCh38 需要在当前的变异注释资源管理中进行全领域的规范转变26。
在临床环境中全面使用GRCh38的另一种方法是,首先将测序数据与GRCh38比对,然后将数据“转换”到GRCh37参考基因组上,以便利用现有的GRCh37变异注释和流程27。参考基因组之间序列的差异可能会使转换复杂化,因此需要仔细筛选GRCh37和GRCh38上的相应区域,以确保比对到 GRCh38上已修正序列或已填充缺口(例如着丝粒区域)的变异可以被正确在 GRCh37中识别。值得注意的是,一项使用来自the Genome In a bottle联盟的全基因组测序的研究表明,大约5%检测到的变异无法在GRCh38和GRCh37之间转换14。此外,“转换”无法利用诸如GRCh38参考基因组中增加的序列和组装修正的优势17。
因此,目前仍不清楚转换到GRCh38会产生怎样的后果,尤其是应用于罕见遗传疾病的临床诊断时。在本研究中,我们评估了参考基因组版本的变化对外显子组变异识别和解释的影响。我们分析了来自 1,572 名孟德尔遗传病患者及其家庭成员的外显子组数据,揭示了在变异识别过程中最有可能受到参考基因组版本选择影响的基因和基因组位点列表。基于这些数据,我们评估了参考基因组的差异对于识别罕见遗传疾病和复杂人类疾病相关的变异的影响和其中的机制。
材料和方法
研究队列
从贝勒霍普金斯大学孟德尔基因组中心(CMG28)收集了来自1572 个样本的外显子组测序数据(临床疑似孟德尔疾病患者及其家庭成员)。在1572个人中,其中55% 无表型,45% 有表型。此外,对286 个个体和包括 233 个三口之家的不同规模的家庭(取决于其同意的情况)进行了测序。虽然超过 80% 的个体是欧洲人后裔,但西班牙裔、非裔美国人、东亚和南亚的遗传血统均有出现在研究队列中。本研究中所有个体的知情同意书,均在招募期间由贝勒医学院委员会所批准的研究协议(H-29697)认可。
外显子组测序
如前面所述,外显子组捕获和测序是在贝勒医学院的人类基因组测序中心作为CMG项目的一部分所执行29。简而言之,基因组 DNA 样本使用HGSC VCRome2.1(覆盖 24K基因;罗氏)进行外显子组捕获,然后在 Illumina NovaSeq 平台上测序,目标捕获区域内测序深度大于20X的碱基占比平均为94%。
比对、变异识别和过滤
分别使用GRCh37 和 GRCh38 人类参考基因组进行比对,对 1572 个样本中的每个样本都生成了变异检测的结果。具体来说,对于GRCh37 我们选择了 hs37d5参考基因组,包括rCRS 线粒体序列、人疱疹病毒 4 型 1 类和级联诱饵序列的数据30;对于 GRCh38,我们选择了带有诱饵序列、可变scaffolds和 HLA 序列的完整分析集(GenBank assembly accession:GCA_000001405.15)。这两个参考基因组已被千人基因组计划的第 3 阶段使用30。在人类基因组测序中心31,实行常规等效的基因组测序分析流程。使用 BWA-MEM32 对每个样品进行两个参考基因组比对,使用 GATK进行插入/缺失(indel) 重新比对和碱基质量校准。然后使用 xAtlas10 进行变异识别,单核苷酸变异 (SNVs) 和插入缺失(indels)分别进行,生成 gvcf 文件,然后通过GLnexus33(默认参数;仅限常染色体变异)进行joint-calling。对于GRCh37 和 GRCh38使用相同的参数来生成变异集。
然后我们执行了一系列先前公布的质量控制 (QC)程序和标准34,35以确保SNVs 和indels的变异识别的质量。首先,对于每个样本中的每个变异如果满足以下任一条件,我们赋给该变异一个缺失的基因型(./.),条件包括:深度小于15;等位基因比率小于 0.25 或大于 0.75;或xAtlas识别结果为non-PASS变异。然后我们过滤掉缺失基因型率大于 15% 的变异以确保变异质量。这种过滤策略防止因为变异质量差导致的两个参考基因组识别到的随机不一致的变异集。进行变异识别的区域设定在外显子组捕获目标边界100 bp 以内。我们通过确保所有样本的缺失基因型率< 10%和杂合度率< 3个标准偏差来进行抽样QC。还使用PLINK36进行分析以确保样本相关性与实际的系谱结构相匹配。
变异转换和比较
使用LiftOver工具及从UCSC基因组浏览器37下载的chain files ,变异位点都被从一个参考序基因组(源)转换到另一参考基因组(目标)。我们首先去除在两个变异集中等位基因频率为1的纯和变异。在GRCh37和GRCh38之间的参考等位基因和替换等位基因交换的情况下,这种去除防止源程序集中的AF=1变异与目标程序集中的AF=0变异(在过滤的vcf文件中不存在)的比较。在从GRCh37转换到GRCh38以及从GRCh38转换到GRCh37的过程中,由于目标参考基因组上没有可匹配的位点,在GRCh37和GRCh38上分别发现了一组“不可转换”的变异,并认为这是不一致变异的一个来源。接着,在每个样本中我们确定GRCh37和GRCh38可转换的变异的基因型一致性。具体来说,GRCh38上检测的变异被转换到 GRCh37 坐标,并与 GRCh37 参考基因组上检测的变异进行比较,用工具RealTimeGenomics38工具箱中的 vcfeval识别每个样本中一致和不一致的变异 。我们还把一致性变异从 GRCh37 转换到GRCh38 ,以确保转换是双向的。总而言之,这些分析产生了以下变异:(1) GRCh37 和 GRCh38 之间一致变异,(2)仅在GRCh37 上发现的变异(GRCh37独有),以及(3)仅在 GRCh38上发现的变异(GRCh38独有)。
不一致参考补丁(DISCREPs)鉴定
该分析对GRCh37和GRCh38分别进行。为了识别每个组装序列中的DISCREPs区域,我们将基因组划分为10kb的窗口,计算每个窗口中所有样本的不同变异总数,并保留具有10个以上不同变异的窗口以供分析。然后,在每个基因组窗口中,我们计算了GRCh37或GRCh38特有变异,并使用单边 Fisher 精确检验将它们与经过所有窗口中总和的基线水平标准化的不同变异的数量进行比较,然后进行错误发现率 (FDR;Benjamini-Hochberg )调整。我们将 q < 0.01 作为具有统计意义的阈值。使用 R 包 KaryoploteR39 和 Circlize40 绘制DISCREP图。
不一致参考补丁基因组特征富集分析
使用的GRCh37和GRCh38的以下基因组位置特征是从UCSC基因组浏览器37下载的:简单串联重复、微卫星、片段重复、中断重复、已知组装问题、具有修复补丁的基因座、具有可变单倍型的基因座、具有已知的基因组组装差异和组装中的间隙。使用 R 包 LOLA41基于双侧 Fisher 精确检验(与非 DISCREP 基因组窗口相比)对 DISCREP 中的上述每个基因组特征进行富集分析。检验统计量由 FDR 调整,q < 0.01 被认为具有统计学意义。对于在 GRCh37 和 GRCh38 之间重叠的 DISCREPs 区域,我们结合了来自 GRCh37 和 GRCh38的基因组窗口数目以进行 Fisher 精确检验。
受参考基因组影响的基因鉴定
使用 ANNOVAR42 (v2019.10.24) 对基因进行 GENCODE 数据库 (v34)注释。我们只考虑在GRCh37和GRCh38参考基因组上都有GENCODE注释的基因。在19,003 个基因中发现了变异(包括 SNVs 和indels),我们进一步分析了在队列中至少有一个不一致的变异的 790 个基因。对于每个基因,我们统计了所有个体中 GRCh37 或 GRCh38 一致和不一致变异的数量,并使用单侧 Fisher 精确检验与来自所有 790 个基因的一致和不一致变异的总和进行比较。检验统计量由 FDR 调整;5个以上不一致变异且q < 0.05的基因被认为具有统计学意义。
通过从19,003个基因(我们研究中评估的基因数量)中随机抽样我们的基因集,进行了置换检验(1000万次置换 ),以得出重叠基因数量的零分布来评估在我们的研究中 GRCh37 和 GRCh38 之间不一致变异富集基因(n = 206)是否与UK Biobank研究(n = 641)20中发现的携带错误变异的基因显着重叠。经验p值是根据排列中重叠基因的数量等于或超过观察到的重叠基因数量的比例计算的(n = 28)。
基因和变异注释
使用 ANNOVAR42 (v2019.10.24) 对变异类型(例如frameshift deletion, missense, stopgain等)进行注释。从在线孟德尔遗传数据库 (OMIM) 中确定与已知孟德尔疾病有关的基因。从 ClinVar43( 20190305版本)中获取带有一个或多个星描述了临床意义的支持程度的变异被认为是已知的致病变异。为了识别具有潜在有害影响的变异,我们重点关注以下在所有人群数据库中次等位基因频率 (MAF) < 0.01 的罕见变异:1000 Genomes Phase 330, gnomAD(GRCh37和GRCh38分别为2.1.1和3.0版本)24,和 ExAC (v0.3)44。我们定义了满足以下标准之一的潜在有害变异:(1) 罕见的潜在功能缺失变异(frameshift insertions/deletions, nonsense single-nucleotide variants, stoploss variants, 或splicing variants)或 (2) CADD45得分 > 20 且 REVEL46 得分 > 0.8 的罕见错义变异。来自于先前全基因组关联研究 (GWAS) 的基因来自 GWAS Catalog v1.0.2。
结果
GRCh37和GRCh38参考基因组导致的变异识别的差异为了确定选择不同参考基因组对变异识别的影响,我们分析了1572名孟德尔病患者及其家族成员的ES数据,这些人通过贝勒霍普金斯大学孟德尔基因组中心招募。我们分别使用GRCh37和GRCh38参考基因组鉴定常染色体上的SNVs和indels,并发现每个样本在两个参考基因组识别到的变异数量相似 (图1; 表1)。值得注意的是,平均而言,GRCh37参考在每个个体中多产生了50个SNVs和146个indels (图1)。
图1. 每个样本中使用GRCh37和GRCh38参考基因组检测的变异数
(A和B) 按个体遗传祖先分组的每个样本中变异数的分布(A代表SNV, B代表indel)。
(C和D) 各样本中GRCh37和GRCh38变异数目密度图(C代表SNV, C代表indel)。红线表示所有样本的中值。
注意,这里显示的变异数目包括外显子和外显子边界100 bp内区域的变异 (EAS,东亚人;AMR,混杂美国人;欧洲人;SAS,南亚人;AFR,非裔美国人)。
尽管每个样本中GRCh37和GRCh38检测到的变异数目相似,我们接下来试图确定两个参考基因组之间的变异识别的系统一致性。通过把一个参考基因组中检测到的变异坐标转换成另一个版本的参考基因组的变异,并比较每个样本中检测到的变异,我们发现GRCh37和GRCh38中的大多数变异体具有一致的基因型 (在所有样本中>98%的SNVs和>93%的indels, 图2)。然而,在每个样本中平均有1422个SNVs和267个indels在两个参考基因组中不一致(图2)。其中,仅有0.7%是基因型不一致(即同一变异位点杂合或纯合的等位基因信息不一致);大多数不一致是由只在一个参考基因组中识别到的变异引起的(图2)。值得注意的是,在每个样本的不一致变异中,平均22.4%的SNVs和29.2%的indels不能进行坐标的转换,因此不能与另一个版本的参考基因组变异进行比较(图2)。总之,在本次的研究队列中,不一致变异占总SNVs的1.5% (n = 18,477 / 1,248,403)并且占总indels的2.0%(n =1,523 / 76,414)。
图2. 每个样本中GRCh37和GRCh38之间一致和不一致变异的平均数量
(A)每个样本中使用GRCh37和GRCh38的检测到的变异总数(所有样本的中位数,下同)以及两个参考基因组之间的一致变异数量。
(B)每个样本中GRCh37和GRCh38上发现的不一致变异的数量及其来源。
(C)不一致变异(包括SNVs和indels) 的相对比例。蓝色框表示在GRCh37上特有的变异,而橙色框表示在GRCh38上特有的变异。
不一致变异富集的基因组位点
虽然在所有染色体上都发现了不一致的变异,但我们观察到它们倾向于在某些基因组位点上富集(图 S2和图 S3)。为了识别具有丰富基因座的不一致参考补丁(DISCREPs),我们用10kb的染色体窗口分别评估GRCh37和GRCh38与全外显子组基线水平相比,不一致变异显著富集的区域。我们发现在39,092个测试基因组窗口中330 (0.8%) 个只被GRCh37检测到的变异显著富集的DISCREPs (错误发现率q < 0.01;表S1)。这些DISCREPs包含了只被GRCh37识别到的变异的72.9%。在GRCh38上,我们在39,188个基因组窗口中发现了383 (1.0%) 个DISCREPs,其中包含了79.9%的只被GRCh38识别到的的变异(表S2)。因此,大多数被GRCh37或GRCh38的识别的不一致变异(共76.6%)聚集在离散基因组区间内。
我们观察到GRCh37和GRCh38之间的DISCREPs是重叠的。在两个版本的参考基因组中有1.38 Mb的DISCREPs (138个10kb基因组窗口)重叠,并富集了GRCh37和GRCh38上发现的不一致变异(图3)。为了识别不一致变异富集区域的不同机制,我们通过富集分析聚焦于一系列基因组特征对这些DISCREPs进行特征分析。在包含片段重复、已知装配问题、固定补丁、可变单倍型和两个参考基因组版本已知差异的区域,DISCREPs显著富集(图3)。然而,我们还发现包含可变单倍型和修复补丁序列之间的重叠DISCREPs比不同版本特有的DISCREPs更富集(图3)。与GRCh38上的特有变异相比,GRCh37的特有变异在固定补丁序列上更丰富,而在可变单倍型上则不丰富(图3)。因此,这些离散序列在某些基因组特征(如片段重复)中具有共同的机制。
图3. 在GRCh37和GRCh38上识别的DISCREPs中富集的基因组特征
(A) GRCh37和GRCh38上发现的DISCREPs(两个参考基因组之间的重叠的以及每个参考基因组上特有的)。
(B) 在不同类型DISCREPs中富集各种基因组特征的Fisher精确检验的优势比。实线表示有统计学意义的富集(q<0.01),虚线表示无统计学意义的结果。
(C) 在不同基因组特征的富集上不同DISCREPs组之间的配对比较。黑线表示有统计学意义的结果(q<0.01),而灰线表示无统计学意义的结果。
参考基因组选择对基因的影响
由于不一致的变异富集在某些特定的基因组区域内,我们接下来确定是否有基因受到参考基因组选择的显著影响。在我们评估的19003个基因中,790个基因(4.16%)至少有一个变异只在GRCh37或GRCh38参考基因组上被检测到。每个基因中只被一个参考基因组检测到的变异和一致性变异进行比较,共得到206个显著富集的基因(q < 0.05,表S4): 其中120个富集于GRCh37特有变异,144个富集于GRCh38特有变异,58个富集于GRCh37和GRCh38共有变异。值得注意的是,这些基因中有83.0%与GRCh37和GRCh38上发现的DISCREPs重叠。
在206个受参考基因组影响显著的基因中,34个基因包含仅由GRCh37识别的90%以上的变异和26个基因包含仅由GRCh38识别的90%以上的变异(表S4)。这些基因中变异识别的差异都是由于reads与多个位点(多重比对reads)对齐,导致比对得分为零和变异识别失败32。例如,共有97.1%的来自CBS (MIM: 613381)基因的变异(n = 136/ 140)仅在GRCh37参考基因组上被识别。CBS上这些特有变体的差异是由于来自GRCh37参考基因组(chr21:44473301–44496472)同一位点的两个基因CBS和CBSL在GRCh38参考基因组上分裂为两个位点(CBS:chr21:43053191–43076378;CBSL:chr21:6444869–6468040)。这种分裂导致多重比对reads与GRCh38的两个不同区域对齐,导致GRCh38参考基因组上的变异识别失败(图S4)。
我们发现,多重比对reads能够解释 206 个受参考基因组显著影响的基因中的 64.1%。在整个外显子组中,大多数多重比对reads与同一染色体内的多个位点对齐(所有样本中>90%),少数例外情况是多重比对reads与不同染色体对齐(图4)。事实上,基于全基因组BLAST分析47,206个基因中共有57个(27.7%)被注释为人类旁系同源基因,例如PRAMEF基因簇;28个基因(13.6%)为假基因(表S4)。这些结果表明,尽管大多数变异在两个参考基因组之间是一致的,但由于相似的机制,基因组上的某些区域和基因容易受到参考基因组组装变化的影响。
图 4. GRCh37和GRCh38上的多重比对reads
结果来自GRCh37(A)和GRCh38(B)。
外轨道上的点表示大量存在不一致的变异识别的基因。中间轨迹上的条形图显示了不一致变异富集的DISCREPs。内轨道内的链接表示与基因组上的多个位点对齐的多重比对reads的成对位点,链接的阴影与此类reads的密度成正比。
参考基因组在罕见遗传病相关变异识别方面的影响
接下来,我们关注不同的变异识别对孟德尔疾病分子诊断的影响。在206个GRCh37和GRCh38之间显著富集不一致变异的基因中,我们基于 OMIM 数据库共鉴定了 8 个与已知孟德尔表型相关的基因(表2)。在这些基因中,PRODH (MIM: 606810), SIK1 (MIM: 605705), CBS, H19 (MIM: 103280), CRYAA (MIM: 123580), 和 KCNE1 (MIM: 176261)的全部或大部分变异仅能被GRCh37参考基因组识别,而RPS17 (MIM: 180472) 和ADAMTSL2 (MIM: 612277) 基因上富含的位点变异只能通过 GRCh38参考基因组识别到。上述8个基因中变异识别结果的不一致是因为reads在参考基因组上是多重比对导致无法准确识别。因此,与上述孟德尔疾病相关基因的分子诊断受到参考基因组选择的影响。
在我们的队列中,从两个参考基因组识别到的不一致的变异中我们确定了三个已知的致病性或可能致病的变异(来自ClinVar )。研究结果显示,三个仅通过GRCh37 参考基因组别得到 P/LP 变异都位于 CBS 基因(高胱胺酸尿症和血栓形成相关的基因,MIM: 236200)上。然而GRCh38 参考基因组识别特有位点中,我们没有发现任何已知的 ClinVar P/LP 位点的变异。尽管如此,在发现的所有不一致变异中,我们在128个基因中发现了 201 个罕见遗传病相关的变异(MAF<0.01,分布于128 个基因中),并预测具有潜在的危害性(图5和表S5)。其中74 个变异仅通过GRCh37 识别到,127 个变异仅由 GRCh38 识别到,且所有变异中有 15 个(7.5%)位于已知的孟德尔疾病相关基因上。
我们进一步发现,由于GRCh37 和GRCh38使用了不同注释资源,对变异的致病性的解读也有所不同。例如,在仅由一个参考基因组识别到的 201 个罕见的、具有潜在危害的变异中,15 个 (7.5%) 在转换到另一个参考基因组后被注释为无害的变异类型(表 S5)。这些差异大部分是由两个参考基因组的基因注释信息不同导致的。因此,由于参考基因组的差异而导致的变异识别结果方面的不一致,会影响到罕见遗传病相关的潜在致病性变异的识别和解读。
图5. 分别通过 GRCh37 和 GRCh38 发现的具有潜在有害且独有变异的类别
参考基因组对常见变异的影响
接着,我们评估了参考基因组的选择是否对外显子测序(ES)检测到的常见和罕见变异具有相同的影响。我们发现,通过GRCh37和GRCh38检测到的不一致的变异往往比一致的变异结果具有更高的MAF。具体而言,在我们的队列中,在GRCh37或GRCh38参考基因组中特有的SNVs中30.4%是常见变异(MAF > 0.01),而在一致的SNVs中,常见变异仅占13.4%(p < 0.001;OR = 2.81;95% CI = 2.72–2.90;图6和图S5)。此外,与一致indels相比,GRCh37 和 GRCh38 特有indels中是常见变异(MAF > 0.01)所占比例更大(41.6% vs 15.1%;p < 0.001;OR = 3.99;95% CI = 3.59–4.45;图6和图S5)。对于 GRCh37 和 GRCh38 上的无法转换的变异中也观察到了相似的趋势,其中与(一致变异相比,无法转化的变异中常见变异更多(图6和图S5)。因此,相对来说不一致的变异检测对常见变异的影响比罕见变异更大。
尽管外显子捕获区域中并不包含人类复杂疾病相关的常见非编码变异,但由于不一致的变异富集在基因组上,因此基因区域(例如启动子、3' UTR)内的常见功能变异同样受到参考序列的影响。因此,我们评估了参考基因组对与人类复杂疾病相关的基因的影响。在206个显着富集不一致变异的基因中,我们发现53个基因与先前的GWAS研究中的278个不同表型或性状中的一个或多个相关(表S6)。其中,许多是与HLA基因相关的免疫相关疾病。总之,由于参考基因组差异导致的不一致变异存在于与人类复杂疾病相关的基因中。
图6 具有不同MAFs的一致和不一致变异的比例。SNVs结果(A)和indels结果(B)。
讨论
在使用ES数据评估参考基因组对于罕见和常见变异影响的最大规模研究中,我们发现尽管大多数变异不受参考基因组变化的影响(且结果不受我们使用的质控方案的影响),但基因组的某些区域受到显著影响。具体来说,仅由一个参考基因组识别出的变异,富集到了206个基因。其中8个基因与已知的孟德尔表型相关,53个与以前的GWAS的共同性状相关。我们建议研究人员和临床医生在使用另一个参考基因组产生的注释数据库来解释一个参考基因组检测的变异时,要更多的关注这些基因和区域。
GRCh38组装版本是人类参考基因组的一个升级版本17。然而,我们发现使用GRCh38检测时会漏检有些疾病相关的变异,只有GRCh37版本能识别到。特别是,我们发现了6个与已知孟德尔表型有关的基因携带的变异完全或大部分由GRCh37检出(表2)。因此,在我们的研究中,虽然从ES数据中检出的相对较少的变异在两个参考基因组中识别不一致,但在使用GRCh38时,这些基因需要进一步研究,尤其是在对临床表现与这些条件一致的个体进行分子诊断时。我们只鉴定出GRCh38特有变异富集的与已知孟德尔疾病有关的2个基因,然而,这可能是由于大多数向ClinVar提交的机构都是使用GRCh37参考基因组的确定性偏差。值得注意的是,在我们的研究中,ACMG推荐的59个偶然发现基因48,没有一个包含不一致的外显子变异。
在从一个旧的参考基因组组装版本转换到新的组装版本时,还有一点需要考虑的是,感兴趣的疾病是否倾向于与受组装版本影响最大的基因相关。尽管当使用不同版本单倍型的人类参考基因组时,只有1.5%的SNVs和2.0%的indesl检出结果不一致,重新评估回顾性数据时,专注于已知在GRCh38中得到改善的孟德尔疾病的相关基因,可能有会有新发现。例如,最受影响的区域之一,主要组织相容性复合体(MHC)位点,携带许多与自身免疫疾病相关的基因49。已知GRCh38参考基因组通过为MHC区域引入额外的可变单倍型17,19来提高变异质量,因此对MHC位点感兴趣的研究人员可能会使用GRCh38。另一方面,研究CBS等基因或高胱胺酸尿症或血栓形成等疾病的实验室可能不会切换到GRCh38,因为这些基因中的大多数变异只能在GRCh37版本检出。
鉴于全面切换已有GRCh37自动注释流程的实际挑战,许多临床诊断实验室提出使用GRCh38参考基因组进行变异检测,将变异位点坐标转换为GRCh37进行注释。然而我们发现并不是所有的有害变异都能转换到GRCh37参考基因组。并且,对于能够转到GRCh37的变异,由于使用不同参考基因组的注释数据库,其变异解释也可能不同。比如我们发现7.5%的潜在有害变异使用其它基因组版本的注释后转为非有害变异。因此坐标转换不一定适合所有的变异,特别是GRCh37和GRCh38变异检测不一致的基因组位置。
此外,迄今为止记录在ClinVar和OMIM中的绝大多数发现都是基于GRCh37参考基因组,仅在GRCh37检测出 P/LP 的ClinVar变异概率比GRCh38高。尽管如此,我们充分进行分子诊断评估的99个基于GRCh37外显子组,所有P/LP变异都可以从GRCh37坐标转换为GRCh38,坐标转换后的变异仍可以判到P/LP(图S1)。
此外,使用不同基因组组装的注释资源的变异解释工作没有充分利用改进的人类基因组参考和基因注释。例如,Steinberg等人报道了由单倍体葡萄胎构建的基因组,并确定了 GRCh37 组装中缺少的 549 个新基因。即使坐标成功转换到 GRCh37 后,这些新基因也不会包含在GRCh37 基因注释中50。此外,致病性变异解释的差异还在于使用不同的方法生成的基因和转录本注释资源,即使来自相同的参考基因组(例如,RefSeq 与 GENCODE51)。这种注释差异对致病性变异解释的影响值得进一步研究。
在两个参考基因组间不一致变异富集的基因中64%是由于多重比对reads造成。以CBS为例,当与GRCh38而不是GRCh37比对时,因为在GRCh38中为CBSL引入额外的参考序列,这些序列与CBS有较高的一致性,将会导致多重比对reads(图S4和图S7)。CBS的致病性突变导致一种已知的常染色体隐性孟德尔疾病。尽管在我们的队列研究中,CBS致病变异或疑似致病性变异的所有携带者的变异都是杂合的,但CBS基因座的这种差异确实影响了对致病性变异携带者状态的评估。一项来自UK Biobank对近50,000个外显子组重分析的研究证实20:即使是在GRCh38中,参考基因组差异导致的不一致的变异识别在大多数情况下可归因于多重比对reads,该研究表明,包括MYH11 (MIM:160745)(ACMG判读规则中要求对偶发变异进行报告的59个基因之一48)在内的641个基因基于GRCh38版本分析标注为零变异的结果是错误的。此外,这641个基因中的28个与本研究中富集了不一致的变异后的基因发现了具有统计学显著意义的重叠(p<1*10-7,置换检验),并且28个基因中的23个(82.1%)在GRCh38参考基因组上富集不一致的变异的表现更为特异(表S4)。
同样在UK Biobank的研究中作者发现,通过在比对过程中使用BWA-MEM(默认情况下给定.alt索引文件)引入候选片段,将显著改善95%基因的变异识别结果,这些基因具有潜在可变单倍型可能导致的多比对reads。此外,在我们的研究中还发现,通过在变异识别过程中引入候选组装片段索引,只有6%的不一致变异富集基因是由于多比对reads导致的。因此,我们建议在变异识别过程中引入候选组装片段索引以改善变异识别结果。
尽管我们的ES数据不代表整个人类基因组,但我们假设短读长测序的全基因组数据的比对将同样受到参考基因组变化的影响,从而也会影响结构变异和非编码变异的检测。由于不一致的变异富集在具有片段重复的区域,未来的评估应集中在第三代测序技术,如长读测序,是否可以缓解在GRCh37和GRCh38差异变异富集的基因组区域中发现的问题52。此外,考虑到外显子组测序的短读长特性,与其他基因组区域具有高度同源性的某些基因组区域无论参考基因组组装如何都容易产生多重比对reads,因此基于长读长的全基因组测序可以能够解决富含多重比对reads的区域中的不一致变异,因为长读取的长度通常允许它们唯一地比对到基因组53。此外,考虑到整个基因组的端粒到端粒组装的可预见性54,本研究可以作为描述不同参考基因组之间的差异如何影响下游变异识别的未来框架。
我们还观察到,与其它遗传祖先群体相比,非裔美国人群的不一致变异率相对较低(图 S8)。具体来说,在非裔美国人群中平均有2.37%的变异被检测到不一致,而在欧洲后裔的样本中,这一比例为2.65%(p = 1.26 x 10-153)。非洲人群是目前最具遗传多样性的人群,但在当前的人类参考基因组中数量最少30,这可能使因人类参考基因组版本改变导致的影响减少。最近的一份报告表明,基于910名非裔受试者组装得到的参考泛基因组55和基于图形的基因组比对策略,可以改进非洲人群的变异检测56。
综上所述,我们的数据表明,GRCh37和GRCh38内在的差异会显著地影响某些基因组区域的变异检测,包括206个基因(57个旁系同源基因,28个假基因,8个收录于OMIM与孟德尔疾病有关的基因,未发现ACMG基因)。只有3个已知的致病变异/疑似致病变异和15个罕见的且预测为有害的变异是由于参考基因组的差异导致不一致。另外,有15个变异在转换并注释到另一个版本的基因组时,致病性发生了改变。每个外显子组中,平均有1422个SNVs和267个indesl识别为不一致,相当于每个外显子组中<3%的变异。不一致的变异聚集在DISCREP基因组区域,其中大部分包括已知的明确受到片段重复、组装问题、可变单倍型影响的基因组间隔区。我们建议,对于与孟德尔疾病分子诊断或复杂疾病分析过程中进行的变异解释,若涉及这206个富含不一致变异的基因,或变异发生在DISCREP区域中,参考基因组组装的差异应该在分析中被考虑,特别是对于将变异位置从一个参考基因组转换到另一个参考基因组,或是使用来自不同参考基因组的注释资源的研究人员和临床医生。
原文链接:https://pubmed.ncbi.nlm.nih.gov/34129815/
参考文献
- Yang, Y ., Muzny, D.M., Reid, J.G., Bainbridge, M.N., Willis, A.,Ward, P .A., Braxton, A., Beuten, J., Xia, F ., Niu, Z., et al. (2013). Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N. Engl. J. Med. 369, 1502–1511.
- Biesecker, L.G., and Green, R.C. (2014). Diagnostic clinical genome and exome sequencing. N. Engl. J. Med. 371, 1170.
- Smith, H.S., Swint, J.M., Lalani, S.R., Yamal, J.M., de Oliveira Otto, M.C., Castellanos, S., Taylor, A., Lee, B.H., and Russell, H.V . (2019). Clinical Application of Genome and Exome Sequencing as a Diagnostic Tool for Pediatric Patients: a Scoping Review of the Literature. Genet. Med. 21, 3–16.
- Hayeems, R.Z., Dimmock, D., Bick, D., Belmont, J.W., Green,R.C., Lanpher, B., Jobanputra, V ., Mendoza, R., Kulkarni, S., Grove, M.E., et al.; Medical Genome Initiative (2020). Clinical utility of genomic sequencing: a measurement toolkit. NPJ Genom. Med. 5, 5 6.
- Yang, Y ., Muzny, D.M., Xia, F ., Niu, Z., Person, R., Ding, Y .,Ward, P ., Braxton, A., Wang, M., Buhay, C., et al. (2014). Molecular findings among patients referred for clinical whole-exome sequencing. JAMA 312, 1870–1879.
- Lee, H., Deignan, J.L., Dorrani, N., Strom, S.P ., Kantarci, S.,Quintero-Rivera, F ., Das, K., Toy, T., Harry, B., Yourshaw, M.,et al. (2014). Clinical exome sequencing for genetic identification of rare Mendelian disorders. JAMA 312, 1880–1887.
- Monies, D., Abouelhoda, M., Assoum, M., Moghrabi, N., Rafiullah, R., Almontashiri, N., Alowain, M., Alzaidan, H., Alsayed, M., Subhani, S., et al. (2019). Lessons Learned fromLarge-Scale, First-Tier Clinical Exome Sequencing in a Highly Consanguineous Population. Am. J. Hum. Genet. 104, 1182–1201.
- Koboldt, D.C. (2020). Best practices for variant calling in clinical sequencing. Genome Med. 12, 9 1.
- DePristo, M.A., Banks, E., Poplin, R., Garimella, K.V ., Maguire,J.R., Hartl, C., Philippakis, A.A., del Angel, G., Rivas, M.A.,Hanna, M., et al. (2011). A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet. 43, 491–498.
- Farek, J., Hughes, D., Mansfield, A., Krasheninina, O., Nasser, W., Sedlazeck, F.J., Khan, Z., Venner, E., Metcalf, G., Boerwinkle, E., et al. (2018). xAtlas: Scalable small variant calling across heterogeneous next-generation sequencing experiments. bioRxiv. https://doi.org/10.1101/295071.
- Supernat, A., Vidarsson, O.V ., Steen, V .M., and Stokowy, T. (2018). Comparison of three variant callers for human whole genome sequencing. Sci. Rep. 8, 17851.
- Chen, J., Li, X., Zhong, H., Meng, Y ., and Du, H. (2019). Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers. Sci. Rep. 9, 9345.
- Kumaran, M., Subramanian, U., and Devarajan, B. (2019). Performance assessment of variant calling pipelines using human whole exome sequencing and simulated data. BMC Bioinformatics 20, 342.
- Pan, B., Kusko, R., Xiao, W., Zheng, Y ., Liu, Z., Xiao, C., Sakkiah, S., Guo, W., Gong, P ., Zhang, C., et al. (2019). Similarities and differences between variants called with human reference genome HG19 or HG38. BMC Bioinformatics 20 (Suppl 2),101.
- Guo, Y ., Dai, Y ., Yu, H., Zhao, S., Samuels, D.C., and Shyr, Y . (2017). Improvements and impacts of GRCh38 human reference on high throughput sequencing data analysis. Genomics 109, 83–90.
- Church, D.M., Schneider, V .A., Graves, T., Auger, K., Cunningham, F ., Bouk, N., Chen, H.C., Agarwala, R., McLaren, W.M.,Ritchie, G.R., et al. (2011). Modernizing reference genome assemblies. PLoS Biol. 9, e1001091.
- Schneider, V .A., Graves-Lindsay, T., Howe, K., Bouk, N., Chen,H.C., Kitts, P .A., Murphy, T.D., Pruitt, K.D., Thibaud-Nissen, F .,Albracht, D., et al. (2017). Evaluation of GRCh38 and denovo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 27, 849–864.
- Lowy-Gallego, E., Fairley, S., Zheng-Bradley, X., Ruffier, M.,Clarke, L., Flicek, P.; and 1000 Genomes Project Consortium (2019). Variant calling on the GRCh38 assembly with the datafromphasethreeof the1000GenomesProject. Wellcome Open Res. 4, 5 0.
- Jager, M., Schubach, M., Zemojtel, T., Reinert, K., Church, D.M., and Robinson, P .N. (2016). Alternate-locus aware variant calling in whole genome sequencing. Genome Med.8, 130.
- Jia, T., Munson, B., Lango Allen, H., Ideker, T., and Majithia,A.R. (2020). Thousands of missing variants in the UK Biobank are recoverable by genome realignment. Ann. Hum. Genet. 84, 214–220.
- Bernstein, B.E., Stamatoyannopoulos, J.A., Costello, J.F ., Ren,B., Milosavljevic, A., Meissner, A., Kellis, M., Marra, M.A., Beaudet, A.L., Ecker, J.R., et al. (2010). The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045–1048.
- ENCODE Project Consortium (2012). An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57–74.
- Abecasis, G.R., Altshuler, D., Auton, A., Brooks, L.D., Durbin, R.M., Gibbs, R.A., Hurles, M.E., McVean, G.A.; and 1000 Genomes Project Consortium (2010). A map of human genome variation from population-scale sequencing. Nature 467, 1061–1073.
- Karczewski, K.J., Francioli, L.C., Tiao, G., Cummings, B.B., Alfo ¨ldi, J., Wang, Q., Collins, R.L., Laricchia, K.M., Ganna, A., Birnbaum, D.P ., et al.; Genome Aggregation Database Consortium (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581, 434–443.
- Rentzsch, P ., Witten, D., Cooper, G.M., Shendure, J., and Kircher, M. (2019). CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Res. 47 (D1), D886–D894.
- Ballouz, S., Dobin, A., and Gillis, J.A. (2019). Is it time to change the reference genome? Genome Biol. 20, 159.
- Luu, P .L., Ong, P .T., Dinh, T.P ., and Clark, S.J. (2020). Benchmark study comparing liftover tools for genome conversion of epigenome sequencing data. NAR Genom Bioinform 2, a054.
- Posey, J.E., O’Donnell-Luria, A.H., Chong, J.X., Harel, T., Jhangiani, S.N., Coban Akdemir, Z.H., Buyske, S., Pehlivan, D., Carvalho, C.M.B., Baxter, S., et al.; Centers for Mendelian Genomics (2019). Insights into genetics, human biology and disease gleaned from family based genomic studies. Genet. Med. 21, 798–812.
- Hansen, A.W., Murugan, M., Li, H., Khayat, M.M., Wang, L., Rosenfeld, J., Andrews, B.K., Jhangiani, S.N., Coban Akdemir,Z.H., Sedlazeck, F .J., et al.; Task Force for Neonatal Genomics (2019). A Genocentric Approach to Discovery of Mendelian Disorders. Am. J. Hum. Genet. 105, 974–986.
- Auton, A., Brooks, L.D., Durbin, R.M., Garrison, E.P ., Kang, H.M., Korbel, J.O., Marchini, J.L., McCarthy, S., McVean, G.A., Abecasis, G.R.; and 1000 Genomes Project Consortium (2015). A global reference for human genetic variation. Nature 526, 68–74.
- Regier, A.A., Farjoun, Y ., Larson, D.E., Krasheninina, O., Kang, H.M., Howrigan, D.P ., Chen, B.J., Kher, M., Banks, E., Ames, D.C., et al. (2018). Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects. Nat. Commun. 9, 4038.
- Li, H. (2013). Aligning sequence reads, clone sequences and assembly contigs with BW A-MEM. arXiv, 1303.3997v2.
- Lin, M.F ., Rodeh, O., Penn, J., Bai, X., Reid, J.G., Krasheninina, O., and Salerno, W.J. (2018). GLnexus: joint variant calling for The American Journal of Human Genetics 108, 1239–1250, July 1, 2021 1249 large cohort sequencing. bioRxiv. https://doi.org/10.1101/343970.
- Sabo, A., Mishra, P ., Dugan-Perez, S., Voruganti, V .S., Kent, J.W., Jr., Kalra, D., Cole, S.A., Comuzzie, A.G., Muzny, D.M., Gibbs, R.A., and Butte, N.F . (2017). Exome sequencing reveals novel genetic loci influencing obesity-related traits in Hispanic children. Obesity (Silver Spring) 25, 1270–1276.
- Li, H., Sisoudiya, S.D., Martin-Giacalone, B.A., Khayat, M.M., Dugan-Perez, S., Marquez-Do, D.A., Scheurer, M.E., Muzny, D., Boerwinkle, E., Gibbs, R.A., et al. (2020). Germline Cancer-Predisposition Variants in Pediatric Rhabdomyosarcoma: A Report from the Children’s Oncology Group. J. Natl. Cancer Inst., djaa204.
- Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M.A., Bender, D., Maller, J., Sklar, P ., de Bakker, P .I., Daly, M.J., and Sham, P .C. (2007). PLINK: a tool set for whole genome association and population-based linkage analyses. Am. J. Hum. Genet. 81, 559–575.
- Kent, W.J., Sugnet, C.W ., Furey, T.S., Roskin, K.M., Pringle, T.H., Zahler, A.M., and Haussler, D. (2002). The human genome browser at UCSC. Genome Res. 12, 996–1006.
- Cleary, J.G., Braithwaite, R., Gaastra, K., Hilbush, B.S., Inglis, S., Irvine, S.A., Jackson, A., Littin, R., Rathod, M., Ware, D., et al. (2015). Comparing Variant Call Files for Performance Benchmarking of Next-Generation Sequencing Variant Calling Pipelines. bioRxiv. https://doi.org/10.1101/023754.
- Gel, B., and Serra, E. (2017). karyoploteR: an R/Bioconductor package to plot customizable genomes displaying arbitrary data. Bioinformatics 33, 3088–3090.
- Gu, Z., Gu, L., Eils, R., Schlesner, M., and Brors, B. (2014). circlize Implements and enhances circular visualization in R. Bioinformatics 30, 2811–2812.
- Sheffield, N.C., and Bock, C. (2016). LOLA: enrichment analysis for genomic region sets and regulatory elements in R and Bioconductor. Bioinformatics 32, 587–589.
- Wang, K., Li, M., and Hakonarson, H. (2010). ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38, e164.
- Landrum, M.J., Lee, J.M., Benson, M., Brown, G.R., Chao, C., Chitipiralla, S., Gu, B., Hart, J., Hoffman, D., Jang, W., et al. (2018). ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Res. 46 (D1), D1062–D1067.
- Lek, M., Karczewski, K.J., Minikel, E.V ., Samocha, K.E., Banks, E., Fennell, T., O’Donnell-Luria, A.H., Ware, J.S., Hill, A.J., Cummings, B.B., et al.; Exome Aggregation Consortium (2016). Analysis of protein-coding genetic variation in 60,706 humans. Nature 536, 285–291.
- Kircher, M., Witten, D.M., Jain, P ., O’Roak, B.J., Cooper, G.M., and Shendure, J. (2014). A general framework for estimating the relative pathogenicity of human genetic variants. Nat. Genet. 46, 310–315.
- Ioannidis, N.M., Rothstein, J.H., Pejaver, V ., Middha, S., McDonnell, S.K., Baheti, S., Musolf, A., Li, Q., Holzinger, E., Karyadi, D., et al. (2016). REVEL: An Ensemble Method for Predicting the Pathogenicity of Rare Missense Variants. Am. J. Hum. Genet. 99, 877–885.
- Ouedraogo, M., Bettembourg, C., Bretaudeau, A., Sallou, O.,Diot, C., Demeure, O., and Lecerf, F . (2012). The duplicated genes database: identification and functional annotation of colocalised duplicated genes across genomes. PLoS ONE 7, e50653.
- Kalia, S.S., Adelman, K., Bale, S.J., Chung, W.K., Eng, C., Evans, J.P ., Herman, G.E., Hufnagel, S.B., Klein, T.E., Korf, B.R., et al. (2017). Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genet. Med. 19,249–255.
- Dendrou, C.A., Petersen, J., Rossjohn, J., and Fugger, L. (2018). HLA variation and disease. Nat. Rev. Immunol. 18, 325–339.
- Steinberg, K.M., Schneider, V .A., Graves-Lindsay, T.A., Fulton, R.S., Agarwala, R., Huddleston, J., Shiryev, S.A., Morgulis, A.,Surti, U., Warren, W.C., et al. (2014). Single haplotype assembly of the human genome from a hydatidiform mole. Genome Res. 24, 2066–2076.
- Frankish, A., Uszczynska, B., Ritchie, G.R., Gonzalez, J.M., Pervouchine, D., Petryszak, R., Mudge, J.M., Fonseca, N., Brazma,A., Guigo, R., and Harrow, J. (2015). Comparison of GENCODE and RefSeq gene annotation and the impact of reference geneset on variant effect prediction. BMC Genomics 16(Suppl 8), S2.
- Vollger, M.R., Dishuck, P .C., Sorensen, M., Welch, A.E., Dang,V ., Dougherty, M.L., Graves-Lindsay, T.A., Wilson, R.K., Chaisson, M.J.P ., and Eichler, E.E. (2019). Long-read sequence and assembly of segmental duplications. Nat. Methods 16, 88–94.
- Logsdon, G.A., Vollger, M.R., and Eichler, E.E. (2020). Long-read human genome sequencing and its applications. Nat.Rev. Genet. 21, 597–614.
- Miga, K.H., Koren, S., Rhie, A., Vollger, M.R., Gershman, A.,Bzikadze, A., Brooks, S., Howe, E., Porubsky, D., Logsdon,G.A., et al. (2020). Telomere-to-telomere assembly of a complete human X chromosome. Nature 585, 79–84.
- Sherman, R.M., Forman, J., Antonescu, V ., Puiu, D., Daya, M.,Rafaels, N., Boorgula, M.P ., Chavan, S., Vergara, C., Ortega,V .E., et al. (2019). Assembly of a pan-genome from deep sequencing of 910 humans of African descent. Nat. Genet.51, 30–35.
- Tetikol, H.S., Narci, K., Turgut, D., Budak, G., Kalay, O., Arslan,E., Demirkaya-Budak, S., Dolgoborodov, A., Jain, A., Kabakci-Zorlu, D., et al. (2021). Population-specific genome graphs improve high-throughput sequencing data analysis: A case study on the Pan-African genome. bioRxiv. https://doi.org/10.1101/2021.03.19.436173.