今天是大年初六,给大家带来的是测173个成年人的大脑的102个基因,希望你能学到知识。
文章发表在NC,于2018年10月中旬,题目是:High prevalence of focal and multi-focal somatic genetic variants in the human brain ,测序数据都上传到了:https://www.ncbi.nlm.nih.gov/sra?term=SRP159015 是开放下载的。
研究者相信干细胞分裂过程中产生的 somatic
突变,是很多癌症的罪魁祸首。理论上大脑发育过程中的那些细胞分裂,也会伴随着同样的突变过程,所以呢,就会在局部富集一些 somatic
突变。然后作者假设那些somatic突变位点如果发生在已知的明确基因上,而且位点一致,具有germline病理性性突变效果。
根据超高深度测序,研究团队发现并且证实了54个成年人的173个大脑区域的102个基因
的确有一些 somatic
突变,包括 DNMT3A 和TET2 这样可能起源于血液的突变。使用神经发育学的数学模型和近似贝叶斯推断理论,研究者预测,大片段的病理性的突变神经元是非常普遍的在人群中。
背景介绍
神经退行性疾病,比如Parkinson’s disease (PD) and Alzheimer’s disease (AD)都是大脑区域细胞病理化,大部分这样的病例都是散发的,但是有约~5%的病例是有明确遗传倾向的,目前GWAS研究只得到了约莫 50 个人易感基因。
名词解释:
- accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因
- HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点
- SRMs: single region mutations ,Somatic mutations that were present in only one brain region
- MRMs:multi-region mutations,Somatic mutations that were present in more than one sample
- variant allele frequency (VAF), 突变碱基比例
具有somatic突变的细胞小群体。
突变碱基比例低于5%,在常规肿瘤WES里面是会被somatic caller的默认阈值直接过滤的。
测序实验概览
总体来说,是两个ngs平台,54个受试者,173个脑部区域,最后找到了62个突变,如下:
Summary-SRMs-MRMs-observed.png
超深度测序的173 frozen brain regions 样本病人来源:
- post-mortem cases of AD (n = 20 brains)
- Lewy body (LB) disease (PD or Dementia with LB: n = 20 brains)
- age matched controls with no significant neuropathology (n = 14 brains)
有配对的血液样品的病人是6个:(control: n = 2, AD: n = 1, LB: n = 3)
涉及到的大脑区域包括:
- cerebellum: CB = 54,
- Entorhinal cortex: EC = 53,
- Frontal cortex:FC = 32,
- Medulla:Med = 24,
- Cingulate: Cin = 10
大脑区域示意图如下:
structure-of-brain.png
只对102个基因的编码区域进行捕获测序,平均测序深度高达5374X。
39个位点的62个突变
其中62个突变分成:
- 56 single-nucleotide variants, SNVs;
- 6 insertion-deletion variants, indels
其中18个突变只出现在单个受试者的单个大脑区域,这里定义为 SRMs,它们的VAF平均只有 0.84% (s.d. = 0.005),这个突变频率低的有点夸张了,要不是这样的超高深度测序平台,根本就很难检测到它们。然后它们也并没有很明显的大脑区域分布偏好性,也没有很明显的基因分类偏好特异性。但是14个 C > T 形式突变,只有4个是其它形式突变。
数据分析流程的测试
这里,研究团队选取了最常见的两款somatic突变搜寻工具,就是mutect2和varscan,最后由于作者针对的少量基因组区域的超高深度测序,所以可以使用DeepSNV方法。
这里研究者使用千人基因组计划的两个不同个体的DNA的不同比例混合样品来模拟不同比例的肿瘤含量样品,这样找somatic突变就有了正确与否的判断标准。
这样就可以测试不同测序深度下,这些工具的准确率,召回率等机器学习指标表现情况。
compare-tools.png
上面的D图说明超过4000X的测序深度的必要性。
- VAF > 1% were consistently detected when the sequencing depth was >1000-fold
- but VAF >0.5% required >4000-fold depth to minimise the false-negative rate of any caller across the 102 gene 285 kb panel
根据上面的C图,最后作者定下来的数据分析策略是:
strategy-somatic-caller.png
两个平台的一致性
两个平台是:
- accuracy and content enhanced (ACE) platform of 5374-fold , 针对捕获基因
- HaloplexHS, sequenced to a mean depth of 6830-fold, s.d. = 1549) 针对找到的位点
针对同一个位点,绘制突变碱基频率的散点图可以看两个平台的相关性,如下,可以说是非常棒的相关性!
VAF-ACE-VS-haloplex.png
还有测序深度和覆盖度的区别:
high-coverage-platform.png
展示那些首先被SureSelect ACE 平台检测到的somatic突变,然后也被Haloplex HS平台验证的,同样也是说明两个平台的一致性,同时也说明这些突变的真实可靠。
vaf-validate-two-platform.png
Haloplex HS 平台的特殊性
两个基本假设:
- 新发突变随机分布在后代细胞
- 神经发育过程中细胞是对称分裂
Haloplex HS 平台是 基于 barcode tagging 方法,所以可以计算每次测序的细胞总数,以及含有somatic突变的细胞数量。
因为测序的细胞总量是 ~611,000 cells, 所以根据具体的某个somatic突变的VAF可以近似推断含有该突变位点的细胞数量。
b.png
突变特征分析
因为找到的somatic突变比较少,还区分了SRMs和MRMs,我个人觉得,绘制下图几乎看不出啥规律,只能说是SRMs的C->T突变比例高于MRMs。
mutation-signature.png
根据测序结果建模,一般人含有这样的低频somatic突变的个数的比例。
q.png
主要结论
有17个突变出现在同一个人的不同脑部区域。
有9个人的大脑不止一个somatic突变。
尽管在脑部细胞发育早期影响约1000个细胞左右的那些病理突变非常稀有,仍然是有可能造成疾病表型,因为他们有可能影响大量的神经元。作者的研究虽然样本量不多,但是提出另一种新的解释,那些影响了世界10%人口的散发性神经退行性疾病机理,提早检测出那些突变,在医疗上很重要。