测173个成年人的大脑的102个基因

2019-03-12 19:16:25 浏览数 (2)

今天是大年初六,给大家带来的是测173个成年人的大脑的102个基因,希望你能学到知识。

文章发表在NC,于2018年10月中旬,题目是:High prevalence of focal and multi-focal somatic genetic variants in the human brain ,测序数据都上传到了:https://www.ncbi.nlm.nih.gov/sra?term=SRP159015 是开放下载的。

研究者相信干细胞分裂过程中产生的 somatic 突变,是很多癌症的罪魁祸首。理论上大脑发育过程中的那些细胞分裂,也会伴随着同样的突变过程,所以呢,就会在局部富集一些 somatic 突变。然后作者假设那些somatic突变位点如果发生在已知的明确基因上,而且位点一致,具有germline病理性性突变效果。

根据超高深度测序,研究团队发现并且证实了54个成年人的173个大脑区域的102个基因的确有一些 somatic 突变,包括 DNMT3ATET2 这样可能起源于血液的突变。使用神经发育学的数学模型和近似贝叶斯推断理论,研究者预测,大片段的病理性的突变神经元是非常普遍的在人群中。

背景介绍

神经退行性疾病,比如Parkinson’s disease (PD) and Alzheimer’s disease (AD)都是大脑区域细胞病理化,大部分这样的病例都是散发的,但是有约~5%的病例是有明确遗传倾向的,目前GWAS研究只得到了约莫 50 个人易感基因

名词解释:

  • accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因
  • HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点
  • SRMs: single region mutations ,Somatic mutations that were present in only one brain region
  • MRMs:multi-region mutations,Somatic mutations that were present in more than one sample
  • variant allele frequency (VAF), 突变碱基比例

具有somatic突变的细胞小群体。

突变碱基比例低于5%,在常规肿瘤WES里面是会被somatic caller的默认阈值直接过滤的。

测序实验概览

总体来说,是两个ngs平台,54个受试者,173个脑部区域,最后找到了62个突变,如下:

Summary-SRMs-MRMs-observed.png

超深度测序的173 frozen brain regions 样本病人来源

  • post-mortem cases of AD (n = 20 brains)
  • Lewy body (LB) disease (PD or Dementia with LB: n = 20 brains)
  • age matched controls with no significant neuropathology (n = 14 brains)

有配对的血液样品的病人是6个:(control: n = 2, AD: n = 1, LB: n = 3)

涉及到的大脑区域包括:

  • cerebellum: CB = 54,
  • Entorhinal cortex: EC = 53,
  • Frontal cortex:FC = 32,
  • Medulla:Med = 24,
  • Cingulate: Cin = 10

大脑区域示意图如下:

structure-of-brain.png

只对102个基因的编码区域进行捕获测序,平均测序深度高达5374X。

39个位点的62个突变

其中62个突变分成:

  • 56 single-nucleotide variants, SNVs;
  • 6 insertion-deletion variants, indels

其中18个突变只出现在单个受试者的单个大脑区域,这里定义为 SRMs,它们的VAF平均只有 0.84% (s.d. = 0.005),这个突变频率低的有点夸张了,要不是这样的超高深度测序平台,根本就很难检测到它们。然后它们也并没有很明显的大脑区域分布偏好性,也没有很明显的基因分类偏好特异性。但是14个 C > T 形式突变,只有4个是其它形式突变。

数据分析流程的测试

这里,研究团队选取了最常见的两款somatic突变搜寻工具,就是mutect2和varscan,最后由于作者针对的少量基因组区域的超高深度测序,所以可以使用DeepSNV方法。

这里研究者使用千人基因组计划的两个不同个体的DNA的不同比例混合样品来模拟不同比例的肿瘤含量样品,这样找somatic突变就有了正确与否的判断标准。

这样就可以测试不同测序深度下,这些工具的准确率,召回率等机器学习指标表现情况。

compare-tools.png

上面的D图说明超过4000X的测序深度的必要性。

  • VAF > 1% were consistently detected when the sequencing depth was >1000-fold
  • but VAF >0.5% required >4000-fold depth to minimise the false-negative rate of any caller across the 102 gene 285 kb panel

根据上面的C图,最后作者定下来的数据分析策略是:

strategy-somatic-caller.png

两个平台的一致性

两个平台是:

  • accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因
  • HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点

针对同一个位点,绘制突变碱基频率的散点图可以看两个平台的相关性,如下,可以说是非常棒的相关性!

VAF-ACE-VS-haloplex.png

还有测序深度和覆盖度的区别:

high-coverage-platform.png

展示那些首先被SureSelect ACE 平台检测到的somatic突变,然后也被Haloplex HS平台验证的,同样也是说明两个平台的一致性,同时也说明这些突变的真实可靠。

vaf-validate-two-platform.png

Haloplex HS 平台的特殊性

两个基本假设:

  • 新发突变随机分布在后代细胞
  • 神经发育过程中细胞是对称分裂

Haloplex HS 平台是 基于 barcode tagging 方法,所以可以计算每次测序的细胞总数,以及含有somatic突变的细胞数量。

因为测序的细胞总量是 ~611,000 cells, 所以根据具体的某个somatic突变的VAF可以近似推断含有该突变位点的细胞数量。

b.png

突变特征分析

因为找到的somatic突变比较少,还区分了SRMs和MRMs,我个人觉得,绘制下图几乎看不出啥规律,只能说是SRMs的C->T突变比例高于MRMs。

mutation-signature.png

根据测序结果建模,一般人含有这样的低频somatic突变的个数的比例。

q.png

主要结论

有17个突变出现在同一个人的不同脑部区域。

有9个人的大脑不止一个somatic突变。

尽管在脑部细胞发育早期影响约1000个细胞左右的那些病理突变非常稀有,仍然是有可能造成疾病表型,因为他们有可能影响大量的神经元。作者的研究虽然样本量不多,但是提出另一种新的解释,那些影响了世界10%人口的散发性神经退行性疾病机理,提早检测出那些突变,在医疗上很重要。

0 人点赞