检查多个测序样本是否来源于同一个病人

2020-04-15 16:59:29 浏览数 (1)

多组学分析大行其道的今天,同一个病人我们可以对其做多次不同技术的测序,比如TCGA计划就有不下8种数据:

  • DNA Sequencing
  • miRNA Sequencing
  • Protein Expression array
  • mRNA Sequencing
  • Total RNA Sequencing
  • Array-based Expression
  • DNA Methylation
  • Copy Number array

对tcga那样的超大规模协同组织,样品弄混的事情可能很少发生,但是该做的质量控制仍然是必不可少的。对小课题组来说,怀疑自己的多个样品是否来自于同一个病人就很正常不过了,比如大清早我就在群里看到了这样的问题:

他对同一个病人做了hic和重测序,但是不确认是不是搞混了,其实很简单的,这些数据,都是可以比对到参考基因组,然后提取snp位点,看看相关性就好了!

germline的snp的相关性

这里借用一个队列研究,看中国人和高加索人,越南人的族群差异,方法描述如下:

理论上,不同地理区域的人之间的差异应该是要小于区域外的人。

细节知识点
  • SNP和SNV
  • dbSNP
  • 使用0,1,2这样的数值来编码野生型,杂合,纯合子位点
  • dendextend

其实,该文章进化树的形式展现结果并不好,如下:

0 人点赞