你的单细胞数据集还可以分析体细胞突变

2024-07-31 19:22:43 浏览数 (1)

Title

De novo detection of somatic mutations in high-throughput single-cell profiling data sets

Online

https://www.nature.com/articles/s41587-023-01863-z

研究背景

单细胞水平上的体细胞突变特征对于研究癌症进化、克隆镶嵌和细胞可塑性至关重要。传统的单细胞基因组测序方法在可扩展性和基因组丢失率方面存在挑战。另一策略是从scRNA-seq 和 scATAC-seq 检测体细胞突变,这种方法的主要优点是可以将细胞谱系映射到转录或调控程序,但由于不同细胞类型的基因表达差异、等位基因脱落事件、RNA 编辑、有限的覆盖深度和测序伪影,突变的检测受到严重限制。因此,现有算法检测体细胞突变具有局限性。因此,研究团队开发了一种名为SComatic的算法,旨在直接检测 scRNA-seq 和ATAC-seq(可及染色质序列测定)数据集中的体细胞突变,而无需匹配的大量或单细胞DNA测序数据。

研究方法

  • SComatic 算法:该算法通过一系列硬过滤和统计测试来区分体细胞突变、多态性、RNA编辑事件和伪迹。这些测试基于非肿瘤样本进行参数化。github 链接是:https://github.com/cortes-ciriano-lab/SComatic
  • 算法原理:SComatic 使用通过标记基因表达建立的细胞类型注释(图 1)(从原始的 bam 文件提取出来每一种细胞类型的barcode作为子bam文件),计算来自同一个体的基因组跨细胞类型每个位置的碱基计数。使用一组硬过滤器和统计检验方法来将体细胞突变与种系多态性和伪影区分开。这里的过滤依据是:【1】种系变异应存在于所有细胞类型中,而体细胞突变应仅在相同分化层次结构的细胞类型中检测到,除非突变是在克隆多样化之前或早期发育期间在祖细胞或干细胞中获得的。【2】与已知 RNA 编辑位点重叠的候选突变或 gnomAD 数据库中群体频率大于 1% 的单核苷酸多态性 (SNP) 也被过滤掉。【3】SComatic 使用使用大量非肿瘤样本生成的法线组 (PON) 来抵消重复测序和映射伪影。【4】SComatic 要求在检测到突变的细胞类型中测序深度至少为 5 条 reads,并且至少在来自两个相同类型的不同细胞的不低于3条reads中检测到突变
  • 测试数据:使用 10× Genomics Chromium 技术生成的 scRNA-seq 数据,并匹配了来自八个皮肤鳞状细胞癌 (cSCC) 和匹配的相邻正常皮肤样本的全外显子组测序 (WES) 数据
  • 其他数据集: 使用来自 622 个已发表的 scRNAs-seq 数据集和来自 66 个 scATAC-seq 数据,共计 2,655,775 个非肿瘤细胞和癌细胞
  • 单细胞数据处理:
    • 【1】scRNAseq 的 fastq 数据,先使用 Cellranger 比对到 GRCh38,然后基于数据集的细胞类型注释信息,将比对得到的 bam 文件,对于的 reads 提取出来作为子bam,没有注释信息的 reads 或细胞就被丢弃。sciATAC-seq 的 fastq 数据,则采用 BWA 比对到 GRCh38,然后使用 GATK 进行去重复和碱基质量重校正。
    • 【2】bam 文件基于细胞类型注释信息进行分割后,在过滤掉比对质量值低于 255 (sciATAC-seq 数据为 30),或者错配碱基超过5个的 reads。此外,为了忽略在读段的末端富集的测序伪影或未正确修整的接头序列,每个读段的 3' 和 5' 端的前五个碱基的碱基质量设置为 0 。
    • 【3】使用 pysam 进行碱基计数,要求最低碱基质量为 30,并且仅考虑至少两种细胞类型的测序深度为 5 个reads的位点。与RNA编辑位点重叠的基因组位置被移除。此外,还删除了映射到 gnomAD 数据库 v.2.0.1 中种群频率大于 1% 的多态性位点。
    • 【4】使用 SComatic 检测潜在的体细胞 SNV:要求突变至少得到来自同一细胞类型的至少两个细胞的三个读取的支持。
    • 【5】突变过滤:删除在 mononucleotide tracts 上或者 4bp 内的突变、彼此相距小于 5bp 的突变、以及双碱基替换(除了在 COSMIC 中有报道的)。同时还基于非肿瘤数据集构建 PON,这些突变被认为是种系多态性,基于此PON进行种系过滤。
    • 【6】评估突变负荷:为了计算细胞类型水平的突变负荷,研究团队将每种细胞类型中检测到的体细胞突变总数除以所有相同类型细胞的可调用位点总数(补充图21)。少于 500,000 个可调用位点的细胞类型不包括在此分析中。
  • 对于 WES 和 WGS 数据处理:
  • scRNA-seq 和 WES-WGS 结果比较:将 WES-WGS 数据作为基线,把突变分为以下 4 类:

研究结果

  • 使用匹配的scRNA-seq和外显子组测序数据验证SComatic:使用SComatic,在scRNA-seq数据中检测到179个突变,其中80个(45%)也在WES数据中检测到。42 个 (23%),在 WES 数据中至少有 1 条 reads 支持突变等位基因
  • SComatic与其他突变检测方法的性能比较:Strelka2、SAMtools、VarScan2、Monovar、SCReadCounts和SComatic在cSCC、卵巢癌和肾肿瘤样本的scRNA-seq数据中检测体细胞突变的性能。结果显示SComatic 在三个数据集上的灵敏度为 0.33–0.56,高于 SAMtools 对两个数据集的灵敏度,并且均高于 Monovar 的灵敏度,但Strelka2、VarScan2 和 SCReadCounts 的灵敏度明显高于 SComatic。但是在精确度上 SComatic 的表现大大优于所有其他方法 。通过拟合COSMIC 的突变特征来比较这些算法的性能:SComatic检测到的突变谱与WES数据高度一致。
  • 在scRNA-seq数据中检测结直肠癌样本中的体细胞突变:使用SComatic计算的上皮细胞的突变负荷,和TCGA 的 WES数据计算的MSI肿瘤的突变负荷相当,没有显著差异。使用SComatic计算的突变谱拟合COSMIC 突变特征,结果和其他大型癌症基因组测序队列得到的结果一致。
  • SComatic 在 ATAC-seq 数据集的性能:该数据来自24个非肿瘤组织的66个样本的459,056个细胞,SComatic 共检测到 389 个体细胞 SNV。大多数突变定位于基因间(32%)、启动子(19%)和内含子区域(18%),每个细胞和单倍体基因组平均载量为 300 个突变,其中导管细胞的发生率最高(每个单倍体基因组 933 个),骨骼肌细胞(9 个突变)和滤泡细胞(0 个突变)的负担最低。

总结

上面研究结果表明 SComatic 允许在单细胞数据集中以单细胞分辨率检测体细胞SNV,而无需匹配的正常对照样本。优于在现有的单细胞数据集中检测体细胞SNVs方法。但是 SComatic 的性能受到当前单细胞测序技术覆盖率和测序深度的限制。随着单细胞方法的改进,SComatic 将能够从单细胞数据集中获得更深入的见解,例如系统发育分析和识别在正常组织和癌症中驱动克隆扩展的正选择突变。

0 人点赞