前面我在《生信技能树》的教程:什么,你感兴趣的GEO数据集没有关联到原始文献出处,提到了一个GSE数据集是可以关联到很多文献,如果这个数据集被挖掘过。但是举例子的时候留空白了,居然被眼尖的读者指出来了。其实写教程有时候很耗费时间,我不想为了一个教程再去临时查询资料做整理,但是即使不举例,相信大家也是能看懂的。 恰好我最近看到了一个数据集就关联到了3个文章,数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE66313
很简单的设计,就是450K甲基化芯片:DCIS (n=40) and adjacent normal (n=15) ,另外的信息技术:Among 40 DCIS cases 13 later developed invasive disease
实验结论很清晰:This work contributes to the understanding of epigenetic alterations that occur in DCIS and illustrates the potential of DNA methylation as markers of DCIS progression.
文章包括:
- DNA methylation in ductal carcinoma in situ related with future development of invasive breast cancer. Clin Epigenetics 2015;7:75. PMID: 26213588
- Concordance of DNA methylation profiles between breast core biopsy and surgical excision specimens containing ductal carcinoma in situ (DCIS). Exp Mol Pathol 2017 Aug;103(1):78-83. PMID: 28711544
- Genome-wide characterization of cytosine-specific 5-hydroxymethylation in normal breast tissue. Epigenetics 2020 Apr;15(4):398-418. PMID: 31842685
学徒作业(一)
这3个文章都需要写文献解读,参考解读模式见:
文献解读示例
多个GSE数据集,走差异基因路线
比如下面3篇文章,都是关于肺癌的数据挖掘文章,而且是整合多个GSE数据集,走的是差异基因路线。
首先需要理解肺癌的生物学背景知识,组织病理上通常将肺癌分为
- 非小细胞肺癌(non-small-cell lung cancer,NSCLC)
- 小细胞肺癌(small cell lung cancer,SCLC)
其中SCLC约占全部肺癌的15%~20%,SCLC的发病与吸烟密切相关,生物学特征为分化程度低、恶性程度高、倍增时间快、侵袭性强、预后差,中位生存期才7个月左右。
其中NSCLC又可以区分为LUSC和LUAD,鳞癌和腺癌的差异。
第一篇文献是:Front. Genet., 12 October 2018 | https://doi.org/10.3389/fgene.2018.00469
- 文章标题:Identification of Candidate Biomarkers Correlated With the Pathogenesis and Prognosis of Non-small Cell Lung Cancer via Integrated Bioinformatics Analysis
- 纳入4个数据集:(GSE18842, GSE19804, GSE43458, and GSE62113)
- 使用limma包寻找显著的differentially expressed genes (DEGs)
- 使用RobustRankAggreg (RRA)整合多个数据集的差异分析结果
- GO和KEGG数据库注释差异分析结果
- 使用STRING数据库搜索差异基因集的PPI网络
- 使用Cytoscape, and Molecular Complex Detection (MCODE)寻找PPI网络的hub基因:OP2A, CCNB1, CCNA2, UBE2C, KIF20A, and IL-6
- 使用 Gene Expression Profiling Interactive Analysis (GEPIA) 网页工具检验hub基因是否具有泛癌效应
- 使用网络数据进行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存预测能力
第二篇文献是:Mol Med Rep. 2018 May; 17(5): 6379–6386.
- 文章标题:Identification of key differentially expressed genes associated with non-small cell lung cancer by bioinformatics analyses
- 纳入4个数据集 : GSE21933, GSE33532, GSE44077 and GSE74706
- 21 tumor samples and 21 normal samples for GSE21933
- 80 tumor samples and 20 normal samples for GSE33532
- 65 tumor samples and 65 normal samples for GSE44077
- 18 tumor samples and 18 normal samples for GSE74706
- 各个数据集分别做差异分析挑选显著的(DEGs) ,阈值都是 (adjust P-value <0.05 and |log2fold-change (FC)|>1)
- 对4个数据集的差异分析结果找重合部分,韦恩图展现
- GO和KEGG数据库注释差异分析结果
- 使用STRING数据库搜索差异基因集的PPI网络
- 使用DEGs with a degree score ≥19 阈值判定hub基因:CCNB1, CCNA2, CEP55, PBK and HMMR
- 使用网络数据进行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存预测能力
第三篇文献是:Published: 26 October 2018
- 文章标题:Transcriptomic and functional network features of lung squamous cell carcinoma through integrative analysis of GEO and TCGA data
- 纳入7个数据集是:GSE8569, GSE21933, GSE33479, GSE33532, GSE40275, GSE62113, GSE74706
- 对GSE数据集,统一使用limma包,阈值为(|Log2FC| > 2, adjusted p-value < 0.05) 来选择显著差异表达基因
- 把所有7个数据集样本合并使用SVA包的combat函数去除批次效应重新使用limma包选择显著差异表达基因
- 对TCGA数据库的502 tumors and 49 adjacent non-tumor选择差异基因
- 整合GEO和TCGA数据库得到 129 genes (91 up-regulated and 38 down-regulated)
- 与前两个文章同样的下游分析得到hub基因,这次有点多,14个 :CCNB2, PLK1, KIF2C, CENPA, CENPF, BUB1, BUB1B, BIRC5, CENPE, ZWINT, AURKB, CHEK1, EXO1, RAD51, and RFC4
- 对TCGA数据库的LUSC使用GDCRNAtools选择:a total of 124 DElncRNAs (|Log2FC| > 2, FDR < 0.05) and 74 DEmiRNAs (|Log2FC| > 2, FDR < 0.05) ,构建ceRNA network
- 使用 Cytoscape 展示ceRNA network ,共 25 lncRNAs, 14 miRNAs and 14 mRNAs
学徒作业(二)
做3次甲基化芯片差异分析,首先需要阅读我在生信技能树的甲基化系列教程,目录如下:
- 01-甲基化的一些基础知识.pdf
- 02-甲基化芯片的一般分析流程.pdf
- 03-甲基化芯片数据下载的多种技巧.pdf
- 04-甲基化芯片数据下载如何读入到R里面.pdf
- 05-甲基化芯片数据的一些质控指标.pdf
- 06-甲基化信号值矩阵差异分析哪家强.pdf
- 07-甲基化芯片信号值矩阵差异分析的标准代码.pdf (微信交流群在这里)
- 08-TCGA数据库的各个癌症甲基化芯片数据重新分析.pdf
- 09-TCGA数据库的癌症甲基化芯片数据重分析.pdf
- 10-TCGA数据辅助甲基化区域的功能研究.pdf
- 11-按基因在染色体上的顺序画差异甲基化热图.pdf
- 850K甲基化芯片数据的分析.pdf
- 使用DSS包多种方式检验差异甲基化信号区域.pdf
然后就可以看我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》,详见:免费视频课程《甲基化芯片数据分析》
3次甲基化芯片差异分析包括:
- DCIS (n=40) VS adjacent normal (n=15)
- 13 later developed invasive disease VS 27 other DCIS
- 13 later developed invasive disease VS adjacent normal (n=15)
每个甲基化差异比较都需要标准5个图表
甲基化芯片的差异分析的标准图表来源于参考文献《Inflammatory cytokines shape a changing DNA methylome in monocytes mirroring disease activity in rheumatoid arthritis》:
- (D) DNA methylation heatmap of CD15-CD33 CD11b cells isolated from RA and HD peripheral blood. The heatmap includes all CpG- containing probes displaying significant methylation changes (FDR<0.05). A scale is shown at the bottom ranging from −4 (lower DNA methylation levels, blue) to 4 (higher methylation levels, red).
- (E) Representation of selected gene ontology categories obtained from the analysis of differentialy methylated CpG sites comparing HD and RA samples using Genomic Regions Enrichment of Annotations Tool.
- (F) Beta values showing methylation of individual CpGs in both the hypermethylated and the hypomethylated CpG sets. A schematic representation of each gene is depicted. Arrows refer to TSS and transcription direction (in red the analysed CpGs location).
- (G) Analysis of differentially variable positions identified with iEVORA algorithm. Significant DVPs are those with a t-test value <0.01 and an adjusted Bartlett test value <0.01.
- (H) DNA methylation plot of selected genes displaying DNA methylation variability in HD and RA group of samples. Mann-Whitney tests were used to determine significance (*p<0.05, **p<0.01 and ***p<0.001; n.s., not significant). DVP, differentially variable position; FDR, false discovery rate; HD, healthy donor; n.s., not significant; RA, rheumatoid arthritis; TSS, transcriptional start site.