再次强调表达量矩阵分析一定要三张图

我在生信技能树的教程：《你确定你的差异基因找对了吗？》提到过，必须要对你的转录水平的全局表达矩阵做好质量控制，最好是看到标准3张图：

左边的热图，说明我们实验的两个分组，normal和npc的很多基因表达量是有明显差异的
中间的PCA图，说明我们的normal和npc两个分组非常明显的差异
右边的层次聚类也是如此，说明我们的normal和npc两个分组非常明显的差异

如果分组在3张图里面体现不出来，实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图，仔细探索哪些样本是离群点，自行查询中间过程可能的问题所在，或者检查是否有其它混杂因素，都是会影响我们的差异分析结果的生物学解释。

就有很多小伙伴问出处，凭什么我这样教大家，以及为什么他并没有在很多文献里面看到我说的3张图呢？

老实说，并没有出处，我就是出处，爱听不听！至于为什么你自己看到的少，有3个原因，因为这3张图是最原始的质量控制，很多人会默认肯定是高质量数据集没有必要展现出来，另外一个原因就是可能他数据集质量很差就不敢展示或者说他知识结构有缺陷压根就不知道这回事。

至少在我看来，有这样的三张图绝对是加分项，比如发表于2021年9月27日，美国康奈尔医学院周乔课题组在***Cell Stem Cell*** 期刊，文章标题是：《SATB2 preserves colon stem cell identity and mediates ileum-colon conversion via enhancer remodeling》，在线阅读链接是：https://doi.org/10.1016/j.stem.2021.09.004 在附件就提到了这样的三张图：

表达量矩阵分析一定要三张图

有了这样的的铺垫，我才会认可你的差异分析结果，接下来你可以自定义阈值来判断统计学显著的差异上下调基因，进行分别的生物学功能富集：

生物学功能富集

数据挖掘的核心是缩小目标基因

各种数据挖掘文章本质上都是要把目标基因集缩小，比如表达量矩阵通常是2万多个蛋白编码基因，不管是表达芯片还是RNA-seq测序的，采用何种程度的差异分析，最后都还有成百上千个目标基因。如果是临床队列，通常是会跟生存分析进行交集，或者多个数据集差异结果的交集，比如：多个数据集整合神器-RobustRankAggreg包 ，这样的基因集就是100个以内的数量了，但是仍然有缩小的空间，比如lasso等统计学算法，最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略，有点类似于人工选择啦，通常是可以往热点靠，比如肿瘤免疫，相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析，仅仅是拿着几千个免疫相关基因的表达矩阵即可。

数据挖掘

0 人点赞