一般来说,数据挖掘文章都是临床医师的专享,大家耳熟能详的策略有;
- 差异分析 PPI网络 hub基因
- WGCNA hub基因
- 诊断模型构建
- 预后模型构建
- 肿瘤免疫,CIBERSOFT计算的LM22比例分组,以及ESTIMATE算法等等
- m6A等生物学功能基因集
- 药敏信息
(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦!我一直强调:数据挖掘的核心是缩小目标基因!
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
其实还有另外一个策略方向,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。最近比较热门的有:自噬基因,铁死亡,EMT基因,核受体基因家族,代谢基因。还有一个最搞笑的是m6a基因的策略,完全是无厘头的基因集搞小,纯粹是为了搞小而搞小。
最经典的当然是差异分析取交集来缩小基因范围
比如文章:《Development and Validation of a Three-Gene-Based Prognostic Model for Predicting the Overall Survival of Head and Neck Squamous Cell Carcinoma Through Bioinformatics Analysis》
就是3个表达量芯片数据集差异分析后取交集:
取交集
这里的差异分析阈值是固定的:adjusted p-value<0.05 and |log2 fold change (FC)|>1,所以每个数据集的上下调基因数量不一样:
- 282 upregulated genes and 202 downregulated genes identified in GSE107591 dataset,
- 1,045 upregulated genes and 752 downregulated genes were identified from GSE29330 dataset.
- 427 upregulated genes and 173 downregulated genes were identified from GSE58911 dataset,
差异分析过程可以看我8年前的芯片教程,推文在:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
这个时候很多人是喜欢去下载3个数据集的芯片表达量矩阵走流程看看自己的上下调基因数量是否跟原文一致,实际上数量并没有意义,仔细看了看文章给出来了的上下调基因列表的通路富集就会感觉很奇怪。图很丑就不说什么了,如下所示:
图很丑
关键是作者描述是上调基因集功能是:
- ossification, drug metabolic process, defense response, monooxygenase activity
- drug metabolism, metabolic pathway, and retinol metabolism
而下调基因集的功能是;
- extracellular matrix organization, collagen catabolic process, cell adhesion
- ECM-receptor interaction, focal adhesion and PI3K-Akt signaling pathway.
可是这个时候明明是癌症和正常的差异,上下调的通路跟常识不符合啊。
学徒作业
我看了看作者从前面的3个数据集差异分析,到后面的数据库注释,到TCGA的生存分析,大都是网页工具,很容易被工具“欺骗”,犯错也是“情有可原”,但是我们生信工程师不能如此马虎,明明是可以花十几分钟走一遍这个差异分析流程,看看上下调基因对应的通路是不是作者弄反了。