大家很容易陷入一种误解,数据挖掘就是要去灌水,发SCI文章。其实真正是数据挖掘,是高效的利用好已有的科研成果,避免重复性的设计实验浪费纳税人民的钱。
比如,一个课题是为了说明 BACE2 基因在癌症研究领域很重要,就可以使用两个数据库(TCGA and GTEx),做出差异和生存的图表来辅助自己的研究。
Notably, by interrogating gene expression profiling in TCGA and GTEx dataset, we found that BACE 2 is overexpressed in melanoma more than in any other cancer type (Fig EV3E) and correlates with a poor prognosis (Fig EV3F).
文章的图表一看就浓浓的GEPIA2风格,感兴趣的可以去学习:GEPIA2详解(中国智造-肿瘤数据库),当然了,也可以自行编程探索。需求最大的是tcga数据库的生存分析和表达量差异,看看这两个视频:
- https://www.bilibili.com/video/av25643438?p=9
- https://www.bilibili.com/video/av49363776?p=6
首先看差异分析
- BACE2 expression profiling by cancer type in TCGA normal and GTEx dataset by using GEPIA software (http://gepia.cancer-pku.cn/). The gene expression profile across all tumor samples (red dots) and paired normal tissues (green dots). Each dot represents expression of samples.
如下:
GEPIA2网页工具的差异表达图
然后看生存分析
- F.Overall survival analyses performed using the GEPIA online platform for melanoma dataset. The solid line represents the survival curve, and the dotted line represents the 95% confidence interval. Log‐rank P < 0.05 was considered to indicate a statistically significant difference. Patients with expression above the median are indicated by red lines, and patients with expression below the median are indicated by blue lines. BACE2 expression level (Transcript Per Million, TPM) is negatively associated with the overall survival of melanoma patients.
超级简单:
GEPIA2网页工具的生存分析图
其实生存预后是一个很玄乎的概念了。我们已经多次介绍过生存分析:
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
网页工具超级简单
就是鼠标点击而已,GEPIA2网页,感兴趣的可以去学习:GEPIA2详解(中国智造-肿瘤数据库)
使用R语言也可以自己绘制
我们当然是强调大家都学习R语言啦,但是也不能睁着眼睛说瞎话,确实不用R语言也是可以完成很大一部分数据挖掘的。但是,如果你想做到随心所欲,而不是这样的简陋的看差异和预后,R语言应该是你的不二选择