癌症研究中单细胞数据分析的5个难点

2022-12-16 14:48:27 浏览数 (1)

单细胞领域的综述多如牛毛,大家很容易去PubMed使用关键词检索,成千上万的综述,当然了,比不上公众号解读多。我们的《单细胞天地》公众号就这五年一直在坚持整理这方面综述,目录如下所示:

  • 1.Single cell RNA-seq 原理的前世今生
  • 2.Single cell RNA-seq 方法篇-上
  • 3.单细胞转录组方法篇——下
  • 4.单细胞转录组分析综述
  • 5.一篇文章带你走进单细胞的天地
  • 6.单细胞测序技术将彻底改变整个生物科学
  • 7.回顾:单细胞入门-读一篇scRNA-seq综述
  • 8.单细胞RNA-seq数据分析最佳实践(上)
  • 9.单细胞RNA-seq数据分析最佳实践(中)
  • 10单细胞RNA-seq数据分析最佳实践(下)
  • 11.综述:高维单细胞RNA测序数据分析工具(上)
  • 12.综述:高维单细胞RNA测序数据分析工具(中)
  • 13.综述:高维单细胞RNA测序数据分析工具(下)
  • 14.单细胞多组学在解析癌细胞可塑性和肿瘤异质性中的应用
  • 15.综述-单细胞转录组学分析细胞通讯

最近看到了一个比较清晰明了的综述,适合癌症领域研究者初次接触单细胞技术前阅读,标题是:《Single-cell transcriptomics in cancer: computational challenges and opportunities》,该综述并没有过多描述单细胞数据分析的方方面面,也不是罗列降维聚类分群等步骤的各个不同软件算法:

  • (dissociating, sorting, and isolating cells, etc.),
  • sequences that can be aligned, quantified, quality control (QC) filtered, and normalized in different way

仅仅是聚焦于癌症研究中单细胞数据分析的5个难点,如下所示:

  • (1) identifying common cell types and states shared across patients and disease states from multiple scRNA-seq datasets;
  • (2) distinguishing neoplastic from nonneoplastic cells using marker and fusion gene detection, copy- number variation inference, and somatic mutation calling from scRNA-seq data;
  • (3) inferring cell–cell communication from the expression of genes encoding receptors and ligands;
  • (4) estimating the proportions of cell types in bulk gene expression profiles;
  • (5) characterizing transcriptional dynamics using trajectory inference and RNA velocity analysis.

难点1:合理的单细胞亚群命名

这个综述并没有在降维聚类分群耗费过多笔墨,仅仅是讨论了多种多个单细胞样品的整合问题, 当然了最后肯定是推荐Harmony,也是我们一直分享的标准流程了,后续所谓的合理的单细胞亚群命名在我们看来,也其实并不难了。通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:

  • immune (CD45 ,PTPRC),
  • epithelial/cancer (EpCAM ,EPCAM),
  • stromal (CD10 ,MME,fibro or CD31 ,PECAM1,endo)

参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。

难点2:区分恶性肿瘤细胞

如果是上皮细胞来源的肿瘤单细胞转录组数据,其实我们已经讲解了太多了,走inferCNV等算法来鉴定,我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程:

  • CNS图表复现09—上皮细胞可以区分为恶性与否
  • CNS图表复现13—使用inferCNV来区分肿瘤细胞的恶性与否
  • CNS图表复现14—检查文献的inferCNV流程
  • CNS图表复现15—inferCNV流程输入数据差异大揭秘
  • CNS图表复现16—inferCNV结果解读及利用
  • CNS图表复现17—inferCNV结果解读及利用之进阶

因为教程跨越了不同时间周期,软件更新,数据集的特异性,导致很多小伙伴follow不同系统的教程会得到不一样的报错。所以大家在运行 infercnv流程的时候 ,一定要注意关键参数哦!

这个综述讨论了其它非上皮细胞来源的恶性肿瘤,以及其它非拷贝数的方法来确定恶性肿瘤细胞,但是也仅仅是停留在讨论层面,并没有给出最佳实践。

难点3:细胞通讯

其实非常好理解,这个细胞通讯的概念,就是已知的两个具有配对关系的基因恰好在两个不同的单细胞亚群分别高表达量,就说明这两个亚群在这个基因对是通讯关系。

这两个亚群在这个基因对是通讯关系

The codetection of receptor-ligand pairs may be used to identify putative cell-cell communication.

  • In this illustration, the single-cell expression levels of known receptor-ligand pairs (Receptor A and Ligand A) are shown across cell types.
  • High receptor expression is identified in immune cells, as illustrated in the beeswarm plot, where each point is a cell.
  • Likewise, high ligand expression is identified in stromal cells.
  • Such codetection may indicate putative cell–cell communication between these two cell types.

可以看到,上面的免疫细胞和基质细胞就在这个已知的receptor-ligand pairs 要通讯关系,而且目前也有大量的软件算法可以做这方面分析啦。我们推荐CellChat流程啦 ,可以在:CellChat学习笔记【一】——通讯网络构建了解它的基础用法,**CellChat** 有一个专门的数据库,叫做CellChatDB,这个数据库是 CellChat 的作者们通过阅读大量文献,手动整理出来的“受体-配体”对,目前有人、鼠以及斑马鱼的版本。其中

  • 人的叫做 CellChatDB.human
  • 鼠的叫做 CellChatDB.mouse
  • 斑马鱼的叫做 CellChatDB.zebrafish

也可以使用其它软件,比如 CellPhoneDB :

  • CellPhoneDB的单细胞通讯结果的可视化之气泡图
  • CellPhoneDB的单细胞通讯结果的理解
  • 直接为CellPhoneDB创建一个独立的conda环境

难点4:根据单细胞结果来反推普通bulk转录组的细胞比例

因为单细胞转录组数据有了降维聚类分群结果,所以各个单细胞亚群都有了各自的高表达量基因和通路,理论上是可以通过算法去反推普通bulk转录组的细胞比例。

  • Most deconvolution methods model the bulk gene-expression matrix as the product of an scRNA-seq gene expression reference (observed) and estimated cell-type proportions for all samples (unobserved) using different types of regression models,

但是这个综述似乎是在这方面并没有过多讨论。

难点5:单细胞亚群之间的动态变化

动态变化以前主要是拟时序分析,我也多次介绍过:

  • 简单直接的拟时序分析方法,R包SCORPIUS推荐
  • 拟时序分析的10个步骤
  • 把基因表达量画在拟时序结果图上
  • 拟时序分析就是差异分析的细节剖析

但是拟时序有一个问题是需要人为设置动态变化的起始终止点,比如我们会假设:a trajectory starts from cells expressing stemness-related pathways and ends at cells expressing maturation-related pathways.

这个时候 RNA velocity analysis. 算是一个简单的改进,但是它并不能从常规的表达量矩阵开始分析,需要至少从前面的转录组序列比对后的bam文件开始。详见:使用基于python的velocyto软件做RNA速率分析

其它单细胞高级分析

癌症研究中单细胞数据分析肯定是不只是这5个难点啦,部分其它难点我也做了相应的介绍:

  • 10x官网下载pbmc3k数据集走RNA速率上下游分析实战
  • pyscenic的转录因子分析结果展示之各个单细胞亚群特异性激活转录因子
  • pyscenic的转录因子分析结果展示之5种可视化
  • 使用cytoTRACE评估不同单细胞亚群的分化潜能

0 人点赞