文献解读1:Comprehensive Genomic Analysis Identifies Novel Subtypes and Targets of Triple-negative Breast Cancer
本次文献解读涉及到三篇文章。这里要解读的第一篇是创建数据集的文章,后面的两篇文章在第一篇文章的数据集基础上进行了探索。
- PMID: 25208879
- PMID: 26921331
- PMID: 30175120
文章摘要
数据集(GEO:GSE76275)
Discovery set | Validation set | Public TNBC dataset |
---|---|---|
84 | 114 | 7 |
分类,得到四种亚型 | 验证这种分类的可靠性 | 公共数据验证 |
结果:最后分类得到四个不同的亚型,而且这四个亚型分别具有不同的遗传意义(文章高分亮点)
亚型 | 亚型特异性的靶点 |
---|---|
Luminal-AR(LAR) | androgen receptor(雌性激素受体)和cell surface mucin MUC1( 细胞表面黏蛋白) |
Mesenchymal (MES) | growth factor receptor (PDGF 受体A;c-Kit)生长因子受体 |
Basal-like Immune-Supressed (BLIS) | immune suppressing molecule (VTCN1)免疫抑制分子 |
Basal-like Immune-Activated (BLIA) | Stat signal transduction molecules (Stat 信号传导分子)和 cytokines(细胞因子) |
背景知识介绍
- 了解TNBC的定义,其分类根据IHC(Immunohistochemistry, 免疫组化染色)
- TNBC这个概念在临床应用很适合,但是在肿瘤分子水平研究中,这样的定义太过宽泛
- 免疫组织化学(IHC)测定显示ER(estrogen receptor)和PR(progesterone receptor)的表达<=1%,IHC 测定的Her2(human epidermal growth factor receptor 2)结果为0至1 ,或者IHC 2 , 单荧光原位杂交(FISH)结果阴性(无扩增)
- basal-like 乳腺癌占所有TNBC的47-88% Basal-like和TNBC的区别
- 两种TNBC的类分类比较:(6类) subtypes of TNBC by LethmanSubtypes of TNBC by BurstenBasal-like1 (BL-1)n Basal-like (BL-2)Basal-like Immune-Supressed (BLIS)Immunormodulatory(IM)Basal-like Immune-Activated (BLIA)Mesenchymal-like (ML)nMesenchymal stem-like (MSL-L)Mesenchymal (MES)Luminal androgen receptor (LAR)Luminal-AR(LAR)
重要的分析方法
- 芯片平台在后续下游分析的探针注释中要用到
- Affymetrix U133 Plus 2.0在NCBI数据库中对应的平台名是“GPL570”,在R中对应的软件包是
hgu133plus2.db
affy
package in R做表达量分析- Illumina 610k 做SNP ==Notes== (生物信息学的两个最重要应用,一是看表达量,而是看是否发生突变)
- Affymetrix U133 Plus 2.0在NCBI数据库中对应的平台名是“GPL570”,在R中对应的软件包是
- PAM50 Breast Cancer Intrinsic Classifier(分类器)
- 挑选差异基因的方法,
- 通过R包
DEDS
(Differential Expression via Distance Summary) - top 1000 median-centered genes
- R包Non-negative Matrix Factorization (
NMF
) - 获得18209个基因
- 通过R包
IPA
软件(Ingenuity System‘ Interactive Pathway Analysis) 来做注释分析- 拷贝数分隔和分析:
- ASPCF(Allele-Specific Piecewise Constant Fitting)
- ASCAT (Allele-Specific Copy Number (CN) Analysis of Tumors),需要芯片表达数据
- CISTIC (Genomic Identification of Significant Targets in Cancer),检查拷贝数变化
- 生存分析:
- DFS (disease-free survival)
- OS(overall survival )
- WGCNA (Weighted gene correlation network analysis)是一个非常强大的网络分析工具,这些工具可以被用来识别发生在样本之间的高度相关的基因群体。因此基因可以被分为模块,而且这些模块可以通过其他的特征(必须是连续变量)联系在一起
- 可用来做WGCNA的指标:Stage I-III, purity of tumor , the size of tumor 以及age,可以用来做WGCNA,找到跟这些指标相关的基因集
- 进行分类
NMF
(Non-negative Matrix Factorization),非负矩阵分解,一种特殊的聚类 非负矩阵分解
- SigClust(Significance of Clustering)
- PAM50进行分类可以将其分为
- luminal A
- luminal B
- HER-2-positive
- basal-like
- normal-like subtypes
生物学意义
通过通路注释得出结论,因为每个亚类都有很多基因参与到相关的生物学过程
- Subtype1 (Lumminal/ Androgen Receptor, LAR subtype)可以对传统的抗雌激素(anti-estrogen)治疗以及抗雄激素(anti-androgens)的治疗方法做出应答
- Subtype2( Mesenchymal,MES), 富集到在乳腺癌中有调控作用的通路,而且对于骨细胞(OGN)和脂肪细胞(ADIPOQ)以及重要的生长因子(IGF-1)特异性的基因在这个亚型中都高表达,具有“Mesenchymal stem-like”或者“claudin-low"的一些性质
- Subtype3(Basal-like Immune Suppressed, BLIS), 这个亚型有最糟糕的DFS和DDS,而且调控抗原传递,免疫细胞分化以及先天和适应性免疫细胞交流。但是,这个类群特有地表达多个SOX家族转录因子
- Subtype4(the Basal-Like Immune Activated, BLIA)。在这个亚型中,调控B细胞,T细胞以及自然杀手细胞功能的基因表达上调。有最好的预后,STAT转录因子介导的信号通路被激活,而且有高表达的STAT基因
文献解读二:Phosphatase PTP4A3 promotes triple-negative breast cancer growth and predicts poor patient survival
==Note== 这篇文献是在上一篇文献的基础上做了生存分析
背景知识:
癌症亚型
摘要
- 102个病人,分组为TNBC(49)和ER-positive(53)
- 相比于ER-positive,TNBC中有146个磷酸化相关的酶都表达了
- 以细胞系为模型来进行研究,TNBC和ER-positive各四个细胞系(参考文献Breast Cancer Cell Line Classification and Its Relevance with Breast Tumor Subtyping)
三阴性乳腺癌的定义
- 15-20% 的乳腺癌并没有表达ER,PR或者HER2,称为三阴性乳腺癌(Triple-Negative Breast Cancer, TNBC)。临床对TNBC的定义为,通过细胞表面的ER,PR,HER2受体的表达量来确定。分子学的定义为,检测控制ER、PR、HER2受体表达的基因是否表达量低。
- 特征:侵略性强,预后差
- RMA(Robust Multi-array Average) , 应用于Affymetrix的三步标准化流程。
- background correction (背景校正)
- quantile normalisation (分位数标准化)
- summarization (归纳)
- 在观察生物学变异的时候,标准化的数据可以被用来控制阵列之间的技术误差
- 后续重复文章结果需要使用相同的参数
- FDR (False Discovery Rate)<0.05
- Fold change >= 1.5, increased expression
- qRT-PCR 来进行实验验证
- Growth assays :通过观察细胞生长的快慢来判断癌症细胞的活力
- Survival Analysis: 生存分析 生成分析
- 文章亮点:
- 146磷酸化酶基因差异性表达(82个上调,64个下调,p<0.05)==曾老师提醒==:只有那些不符合统计学规律的东西,才有研究的意义。p<0.05说明这种现象不太可能发生,我们关注的应该是这些异常现象。
- 缩小范围,最后找到四个对TNBC 不依赖贴壁性生长特别重要的磷酸化酶(PTP4A3, PPAP2B, CDC25B, TIMM50)
文献解读三:Identification of Key Genes and Pathways in Triple-Negative Breast Cancer by Integrated Bioinformatics Analysis
摘要
摘要重点
- 找差异基因简答总结一下就是:对数据集进行分组,找到上调和下调的基因,注释到数据库,并解释其生物学意义
- 数据集 non-TNBCTNBC67198
- 分析方法
- 基因主要富集到卵母细胞减数分裂(Oocyte meiosis)这个KEGG通路
- 找出差异基因(fold change >=1.5,p<0.01),56个上调,151个下调 火山图
- GO和KEGG注释(
DAVID
软件) - PPI(Protein-Protein Interaction) 网络构建(STRING database,
Cytoscape
的MCODE
插件) - 整合TCGA来做生存分析 (
METABRIC
) 生存分析
视频观看方式
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
- 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
- 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
- TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
- GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
- METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC
然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!