希望所有学员都可以站在生信技能树的舞台上发光发热!
下面是粉丝“何许”随机投稿
目前,越来越多的研究者通过构建小鼠疾病或者癌症模型,研究癌症发病机制。因此,对小鼠免疫微环境分析需求越来越多。所有检测不同细胞类型所占比例的方法主要原理是,构建特征基因集,然后利用机器学习方法或者反卷积方法对所测RNA-seq数据进行分析,确定其不同细胞类型比例,因此这种方法也对阈值选择比较敏感。
1.seq-ImmuCC
原理:利用supportvector regression (SVR)或linearleast square regression(LLSR)机器学习方法和特征基因集对免疫细胞的组成比例进行预测 (1)从数据库中搜集不同细胞型的RNA-seq测序数据,进行过滤;(2)选择每个细胞型的特征基因构建特征基因集;(3)选择表现最好的算法用于模型;(4)用模拟数据和试验数据对模型进行评估。 所用数据:从SRA数据库中搜集286个RNA-seq数据,通过标志基因过滤得到38个RNA-seq数据,用于区分免疫细胞类型。最终选择162个基因作为特征集,包含了10个免疫细胞,分别为B细胞,CD4T细胞,CD8T细胞,巨噬细胞,单核细胞,中性粒细胞,肥大细胞、嗜酸性粒细胞、树突状细胞和自然杀伤细胞。 免疫细胞显著差异表达的定义为,校正后P值<0.05,并且变化倍数>2.read counts小于100的标志基因被过滤掉。
优势:可以用于RNA-seq测序平台,芯片测序平台 有网页版软件,不需要生信知识就可以操作 有两种机器学习方法可以选择(SVR和LLSR) 劣势:可区分的免疫细胞种类较少
基因集的参考数据非单细胞测序数据,可能准确度不高 网页版链接:
http://wap-lab.org:3200/immune/ 获取链接: https://github.com/chenziyi/ImmuCC/blob/master/webserver/RNASeq_pipeline.sh 引用文献:ChenZ, Quan L, Huang A, et al. 2018. seq-ImmuCC: Cell-Centric View ofTissue Transcriptome Measuring Cellular Compositions of ImmuneMicroenvironment From Mouse RNA-Seq Data. Front Immunol, 9:1286.(IF:3.517) 被引次数:3次;没有自引
2.ImmuCC
原理:构建小鼠免疫细胞基因集,利用线性支持向量回归(linearsupport vector regression,SVR)方法(CIBERSORT方法)对免疫细胞进行区分。其核心还是利用了CIBERSORT方法。SVR利用不同的V值进行测试,选择最低的均方差根作为后续的计算。 (1)利用样本聚类和过滤验证25个免疫细胞类型; (2)针对25个免疫细胞类型511个特征基因作为特征集预估每种细胞所占比例; (3)利用SVR对所测数据进行反卷积。
所用数据:覆盖25个免疫细胞类型的115个数据集,所分析的细胞主要6大类:B细胞,T细胞,自然杀伤细胞,单核/巨噬细胞,粒细胞和树突细胞。 不同细胞型的差异表达基因定义为P值<0.05,用一种细胞型的表达与其他所有细胞型表达量进行比较。对于非造血干细胞高表达的基因利用富集分数(es)进行过滤,富集到非造血部分的基因es>0.05认为是非造血基因。
优势:可以区分更多的小鼠免疫细胞类型 劣势:适用于微阵列测序结果分析,对于RNA-seq需要重新构建基因集;基因集的形成是利用组织bulk测序得到
引用文献:
ChenZ, Huang A, Sun J, et al. 2017. Inference of immune cell composition on the expression profiles of mouse tissue. Sci Rep, 7: 40508. 被引次数:25次;自引1次
3.CIBERSORT
原理:利用linearsupport vectorregression(SVR)机器学习方法去除背景噪音,反卷积测序数据结合构建的参考基因表达特征分析每种细胞类型所占的比例。 所用数据:建立特征集,LM22.利用547个基因区分22个人类造血细胞型,主要包含7种T细胞,B细胞,自然杀伤细胞和髓系亚群等。
优势:适用于FFPE样本;可以自己构建基因集替换软件里的LM22基因集
获取链接:
http://cibersort.stanford.edu/ (需要学术邮箱注册) 引用文献:
Newman AM, Liu CL, Green MR, et al. 2015. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods, 12 (5): 453-457. 被引用次数:758次;没有自引
4.将小鼠测序数据转化为人源数据进行分析
原理:用BioMart将鼠源基因转化为人源基因,再利用标准特征分数进行单变量和多变量分析 所用数据:利用乳腺癌数据进行特征基因集构建
优势:转化为人源基因之后,下游分析软件较多,构建的特征集较多,可以多种选择 劣势:根据同源基因进行跨物种转化,得到人源基因数目较少
引用文献:
HollernDP, Xu N, Thennavan A, et al. 2019. B Cells and T Follicular HelperCells Mediate Response to Checkpoint Inhibitors in High MutationBurden Mouse Models of Breast Cancer. Cell, 179 (5):1191-1206. (IF:36.216) 被引次数:0次
5.ImmQuant
原理:ImmQuant基于digitalcell quantifier(DCQ)反卷积算法寻找小鼠样本间细胞类型的差异。 所需数据:(1)组织样本的转录模式;(2)免疫细胞亚集的表达特征(称参考数据);(3)参考数据中每种细胞亚集的有效标志基因。 不支持数据预处理,被输入的基因表达数据默认为被校正过。 输出结果:两个样本里同一细胞型相对表达差异 所用数据库:人参考数据:IRIS和DMAP;鼠参考数据:ImmGen
优势:(1)分析207个小鼠细胞型;(2)具有网页版的操作模式。 劣势:只能分析表达差异的细胞类型,不能展示单个样本整体细胞比例。
分析流程:
获取链接:
http://csgi.tau.ac.il/ImmQuant/ 引用文献:
FrishbergA, Brodt A, Steuerman Y, et al. 2016. ImmQuant: a user-friendly tool for inferring immune cell-type composition from gene-expression data.Bioinformatics, 32(24): 3842-3843. (IF:4.531) 被引用17次,没有自引
6.MuSiC
原理:利用scRNA-seq数据作为参考数据,将RNA-seq数据反卷积,获取每个样本不同细胞类型所占比例。基本核心“保持标志基因一致性” 与之前基于平均表达量预选标志基因相比,MuSiC给每个基因权重,可以利用大基因集进行反卷积。加权优先考虑不同个体的一致的基因,跨主体变化小的基因上调加权,跨主体变化大的基因下调加权值。MuSiC使用树形导向递归放大相似的细胞类型,能够区分同一群体内相似的细胞型 所用数据:根据scRNA-seq构建参考数据
优势:可以兼容多个scRNA-seq方法的参考数据;分析多种细胞类型比例 劣势:需要自己根据分析的内容制定特征集和参考数据
获取连接:
https://github.com/xuranw/MuSiC 引用文献:
WangX, Park J, Susztak K, et al. 2019. Bulk tissue cell typedeconvolution with multi-subject single-cell expression reference.Nat Commun. 10(1): 380. 被引次数:10次,没有自引
7.CPM(CellPopulation Mapping)
原理:根据反卷积的方法对bulkRNA-seq进行细胞类型的区分,包括对细胞状态的区分(例如:增殖,凋亡,分化等) 主要分为两步:利用反卷积方法确定bulkRNA-seq中不同细胞的比例;参考数据过大(单细胞的数量多)会导致反卷积的精确性下降,参考数据中细胞状态不同的细胞非均一分布。所以CPM采用随机抽取参考数据亚集进行去卷积,抽样和反卷积重复1500次,作为合并且平均作为每种类型细胞的丰度 第二步是推测分群的细胞类型的细胞状态位置,基于假设在细胞状态空间上,细胞形态分布是连续和平缓的 所用数据:需要scRNA-seq数据作为参考数据
优势:可以区分单个细胞群里的细胞状态 劣势:测序深度低会导致CPM灵敏度下降
获取链接:
https://cran.r-project.org/web/packages/scBio/index.html. 引用文献:
Frishberg A, Peshes-Yaloz N, Cohn O, et al. 2019. Cell composition analysis of bulk genomics using single-cell data. Nat Methods. 16(4): 327-332. 被引次数:4次;没有自引
8.TOAST
原理:给定的原数据集Y和最初的特征,进行无参考数据反卷积评估混合样本比例,再利用细胞间差异分析验证细胞特异性特征。反复这两个步骤,一直到可以很好区分不同细胞类型比例。最初的特征选择top1001~2000最可变的特征。
利用合适的反卷积方法的均方根误差进行发卷积的参数调试,越小的均方根误差,越好的细胞类型比例估计。通常30个反复可以满足4个细胞型在中大样本中分型。样本量太小或者分析更多细胞型需要增加反复次数。
优势:不需要参考数据集,避免软件对参考数据集的学习造成偏倚,可以用基因表达或甲基化水平区分细胞类型 劣势:小样本量的时候,检测少量的细胞类型比较准确。样本量多时,额可以提高检测准确度
获取链接:
https://bioconductor.org/packages/TOAST 引用文献:
Li Z, Wu H. 2019. TOAST: improving reference-free cell composition estimation by cross-cell type differential analysis. Genome Biol.20(1): 190. 被引次数:0次
免疫微环境的区分主要有两种方法:
第一种是有参考数据集进行免疫微环境区分,第二种是无参考数据集的免疫微环境区分。有参考数据集免疫微环境的区分主要依赖可靠的参考数据集,区分方法内核都基本都是利用反卷积方法,不同文章对反卷积方法进行了不同程度的改良。无参考数据集指在无参考过程中判断细胞类型比例,该方法的准确度依靠大样本量。
肿瘤免疫微环境学说
免疫系统在 TME 中具有多方面的作用,癌症免疫编辑的概念得到了许多研究证据的支持,癌症免疫编辑是免疫系统可以约束和促进肿瘤发展的过程,其通过称为消除(elimination),平衡(equilibrium)和逃逸(escape)的三个阶段进行。在这些阶段中,免疫系统改变肿瘤的免疫原性,并促进编辑的肿瘤逃避免疫识别。如下所示:
免疫冷肿瘤与热肿瘤
免疫炎症型,免疫豁免型和免疫沙漠型(2017)
2017 年 1 月,Daniel Chen 提出了一个新的癌症免疫表型 ,可以看作是免疫冷肿瘤与热肿瘤的升级版。Daniel Chen 将肿瘤分为 3 种表型:免疫炎症型,免疫豁免型和免疫沙漠型。
免疫炎症型(immune-inflamed tumor)的肿瘤内部、基质、周围环境均有大量的免疫细胞浸润,处于激活或半激活状态。ICI 容易在该免疫表型中发挥抗肿瘤效应。
免疫豁免型(immune-exclude tumor)肿瘤细胞周围也有大量免疫细胞存在,但免疫细胞不能渗透到肿瘤细胞内核,而是被限制在肿瘤细胞的外围基质。
免疫沙漠型(immnue-desert tumor)无论在肿瘤细胞内核和外围基质均缺乏 T 细胞。免疫沙漠型和免疫豁免型均被认为是非免疫感染表型。
参考:https://mp.weixin.qq.com/s/xMaAGoFA8X6bnW-c7YOT6Q
见:[5] Chen DS, Mellman I. Nature. 2017 Jan 18 541(7637) 321-330.
炎症 TMB-4象限分类法(2019)
2019 年 3 月,Jake O’donnell 的一篇综述将肿瘤微环境分为 4 个模式 :
- 第1 类 TME 肿瘤具有较高的肿瘤突变负荷(TMB)水平和炎症基因表达,提示可能存在持续功能性抑制的免疫应答。具有 TMB 水平或 T 细胞炎症基因特征的肿瘤似乎对 ICI 应答更好。
- 第2 类 TME 肿瘤的 TMB 水平低,且缺乏炎症基因的表达。具有免疫无感或免疫细胞排斥表型的肿瘤可能属于 2 类 TME。这类肿瘤患者如果接受免疫治疗,预后可能最差。
- 第3 类 TME 肿瘤的 TMB 高于 2 类,但低于 1 类肿瘤的 TMB,提示免疫原性新抗原可能是这些肿瘤的潜在靶点。但 3 类肿瘤中没有炎症基因表达提示 3 类肿瘤可能对免疫疗法不敏感。
- 第4 类 TME 肿瘤中 TMB 水平低,但炎症基因表达高,这类肿瘤的 PD-1/PD-L1 免疫抑制机制不占主导地位,但是目前对免疫治疗的应答率尚不清楚。
见:O'Donnell JS, Teng MW, Smyth MJ. Nat Rev Clin Oncol. 2019 Mar 16(3) 151-167. 参考:https://mp.weixin.qq.com/s/xMaAGoFA8X6bnW-c7YOT6Q