WES的CNV分析简介

2019-12-19 11:23:01 浏览数 (1)

基于全基因组数据来检测CNV是非常有效的一个手段,然而全基因组的成本还是挺高的。全外显子组在检测SNP方面已经比较成熟,考虑到外显子上的变异可能更具有致病性,科研人员也希望通过检测外显子上的CNV来实现一个高效,经济的CNV检测,很多的软件被开发用于WES的CNV分析。

CNV区域的长度可能横跨了多个外显子或者基因,断裂点位于外显子以外的位置,所以全基因组分析中Read-pair, split-read的策略无法应用到WES的CNV分析中,只能通过read-depth的策略来进行分析。

然而和全基因组不同,全外显子靶向捕获了基因组的外显子区域,考虑到GC含量,序列捕获等系统误差,其测序深度的分布和CNV之间的相关性更加复杂,建模衡量的难度更大,所以之前适用于WGS分析的CNV检测软件很多都不可以用于WES的分析。

为了有效减少系统误差的影响,提高CNV检测的准确率,很多WES的分析软件都会需要一个对照样本,将对照样本和测试样本进行比较来识别二者间差异的地方,从而回避系统误差带来的影响。同样的protocol意味着同样的系统误差,而二者直接还存在的差异就是由于样本本身的差异引起的了,这就是对照样本的作用。所以WES的CNV检测经典的用处就是检测体细胞CNV,即SCNA变异,提供配对的癌和癌旁样本来进行分析。

在以下文献中,详细列举了几种外显子CNV检测的软件

https://academic.oup.com/bib/article/16/3/380/245577

根据是否需要对照样本分成以下3大类

  1. paired data, 需要配对的对照样本
  2. pooled data, 不需要对照样本
  3. paired and pooled data, 两种策略都可以
1. paired data

软件列表如下

  1. ExomeCNV
  2. Varscan2
  3. Control-Freec
  4. exome2cnv
  5. PropSeg

2. pooled data

软件列表如下

  1. condex
  2. exomeCOPY
  3. cn.mops
  4. conifer
  5. ExomeDepth
  6. XHMM
  7. ExoCNVTest
  8. Excavator
3. paired and pooled data

软件列表如下

  1. contar
  2. ADTEx
  3. FishingCNV

该文章发表于2014年,在之后又陆续发表了很多新工具,比如excavator, 2016年发表在Nucleic Acids Research上的文章介绍了excavator2进行CNV分析的强大之处,链接如下

https://academic.oup.com/nar/article/44/20/e154/2607979

不同工具算法模型都各不相同,各有优劣,在2014年发表的一篇文章对多个软件进行了评估,标题如下

在文章中,列举了很多CNV分析的软件,示意如下

最终选取了以下4款软件来进行评估

  1. XHMM
  2. CoNIFER
  3. ExomeDepth
  4. CONTRA

从以下多个方面进行了评估

1. CNV长度和分布

不同软件检测到的CNV长度分布不同,结果统计如下

CNV的长度可以从几十bp跨越到几Mb的范围,通常认为小于300bp和长度在6kb左右的CNV应该是数量最多的。WES的CNV检测工具都是基于read-depth算法,采用滑动窗口的方法,窗口越大,最终鉴定出来的CNV可信度越高,所以在检测小片段的CNV方面,能力较差。

从统计结果可以看出,Conifer没有鉴定出1kb以下的CNV, 因为这款软件要求CNV至少需要覆盖3个exon区域,XHMM和ExomeDepth则可以同时检测小片段和大片段的CNV, CONTRA检测出来的数量过多,是由于其校正read-depthh的算法过于敏感,所以鉴定出来的CNV过多,在检测小于1kb的小片段CNV时,比较适合。

不同软件鉴定到的CNV的数量和类型展示如下

2. 和WGS的一致性

采用了cnvnator和ERDS两款软件对WGS数据进行CNV检测,然后和WES的结果进行一致性分析,以exon为单位进行评估,当一个exon 50%以上的区域落在CNV区域时进行计算,比较不同软件检测到的exon和WGS数据exon的overlap情况,结果如下

尽管都很低,但是很明显ExomeDepth overlap率最高,接下来是XHMM。

3. 和Common CNV的一致性

利用1000G项目中在人群中频率大于5%的cnvs作为common cnv, 采用上述的方法评估不同软件和common cnv的一致性,结果和WGS一致,也是ExomeDepth最高,XHMM次之。

4. Mendelian Error Rate评估

通常情况下denovo CNV的概率是非常低的,将denovo CNV作为Mendelian Error Rate的指标,对个体及其双亲同时进行CNV分析,评估denovo cnv的频率,结果如下

每个软件不符合孟德尔遗传的CNV比例都很高,conifer最高,而CONTRA最低。

5. deletion CNV的假阳性检测

对于deletion CNV而言,其染色体区域只剩下一份拷贝,在该区域内的SNV必然为纯合性的,所以将包含了杂合SNV的CNV区域作为假阳性的结果,考虑到SNP分型的准确率,将同时满足以下两个条件的缺失区域定义为假阳性的结果

  1. 包含了2个以上的杂合SNP
  2. 20%以上的SNP位点为杂合

拷贝数缺失的假阳性统计结果如下

6. 不同软件之间的一致性

基于exon水平来统计不同软件之间的一致性,结果如下所示

综合以上6个指标来看,没有哪个软件是全面优于其他软件的,在不同指标上,不同软件各有优劣。

在进行WES的CNV检测时,基于一款软件的结果很难兼顾灵敏度和特异性,最好的方法还是结合多款软件的结果进行判断。

0 人点赞