多组学分析大行其道的今天,同一个病人我们可以对其做多次不同技术的测序,比如TCGA计划就有不下8种数据:
- DNA Sequencing
- miRNA Sequencing
- Protein Expression array
- mRNA Sequencing
- Total RNA Sequencing
- Array-based Expression
- DNA Methylation
- Copy Number array
对tcga那样的超大规模协同组织,样品弄混的事情可能很少发生,但是该做的质量控制仍然是必不可少的。对小课题组来说,怀疑自己的多个样品是否来自于同一个病人就很正常不过了,比如大清早我就在群里看到了这样的问题:
他对同一个病人做了hic和重测序,但是不确认是不是搞混了,其实很简单的,这些数据,都是可以比对到参考基因组,然后提取snp位点,看看相关性就好了!
germline的snp的相关性
这里借用一个队列研究,看中国人和高加索人,越南人的族群差异,方法描述如下:
理论上,不同地理区域的人之间的差异应该是要小于区域外的人。
细节知识点
- SNP和SNV
- dbSNP
- 使用0,1,2这样的数值来编码野生型,杂合,纯合子位点
- dendextend
其实,该文章进化树的形式展现结果并不好,如下: