我想知道到底谁错了

2021-07-06 16:19:45 浏览数 (1)

六月份的学徒们经过了100多个gse数据集的魔鬼训练,初具成效,有一个擅长新媒体写作的学徒的笔记值得分享!

下面是2021六月份学徒Sophie的投稿

最近在做GEO数据挖掘的文章复现,文章标题是“Identification of Hub Genes and Pathways of Triple Negative Breast Cancer by Expression Profiles Analysis”,链接如下:https://pubmed.ncbi.nlm.nih.gov/33688252/

文章给出了清晰的数据分析流程图

没什么难度,就是我们参加了小洁老师数据挖掘课程学到的知识:

i

本以为分析起来毫无障碍,但是!!!

当整个流程走完之后,我发现,我的上下调基因的基因和文章结果是反的!我的第一反应是:分组错了??!因为,这是在跑流程时特别要注意的点,所以我每次都是反复确认,而且流程中每一步都设置了代码进行检查以确保分组无误~

难道这个数据是有什么玄妙吗?还是说因为我背景知识了解的不够,所以导致没做什么前期处理呢?顿时心中跑过1万个自我怀疑......

原因可能是

在分析过程中,还是有一点忐忑的,无形之中,总感觉对数据很不了解,难以产生联结。主要有三个方面:

  • 首先,当数据集的背景知识缺乏的时候,很限制数据处理流程的建立;
  • 其次,只有基于课题目的和知识背景的分析才是有意义的;
  • 最后,只有明确生信分析背后的统计学思维,才能对输入和输出数据有一个整体把握和结果正确与否的判断。

接下来

首先,我去补了自己的背景知识
  • 乳腺癌相关背景知识:https://share.mubu.com/doc/36kGgu3tTsp
  • 三阴乳腺癌简要介绍:https://share.mubu.com/doc/hxrIOD1gYp

然后,检查所有代码分组 进而,文章复现所拿到的结果和文章不可能是一模一样的,所以考虑到“批次效应处理不当可能会导致部分上下调基因相反”这种可能性,又换了一种去除批次效应的方式进行再分析。结果一样。

两种去除批次效应方式的比较在另一篇文章再展示~

结果,还是一样的,震惊!怎么办?当根据现有知识解决不了这个问题的时候,背后有一个大佬就很安心了。

于是曾老师给了我一个代码,用来核实我的和文献的分析结果,哪一个是对的。大致思路就是:将文章结论中上下调及hub基因整理成向量,并添加注释分组为上下调和hub。然后随机选取一个数据集(GSE27447)去提取这些基因的表达量数据,画热图。以此来看基因分组里的上下调信息与表达芯片原始数据中的上下调情况是否一致。

结论很明确,见下图。

  • 左边,是文章中给出的,差异top10的上下调基因的logFC热图;右边,是我选取其中一个数据集GSE27447,做的表达量热图。gene_source是指文章中给出的差异基因的标记,即文章作者认为他是上调还是下调。
  • 或者认定gene_source中的某些基因是hub_gene,同理,左图为文章中的结果,右图为我分析得到的结果。
  • 有没有可能是这一个数据集的特例,在其他数据集上表达量并非如此?答案是否定的。因为,我整合了所有数据集的样本,一探究竟,样本总计:186个normal和77TNBC。

看懂图的大家应该知道结论了吧~

不太相关但同样重要的一点

相信大家也看到了,我还添加了两个管家基因(在任何样本中的表达量应该都是高表达的),作为数据检验的marker。

不过发现,这两个基因无论是在对照组还是在实验组都分为两个亚群,其中一个高表达管家基因另一个则是低表达。

这就要提一下TNBC和non-TNBC的分类定义了,它都还有细分的亚群。non-TNBC的定义是:乳腺癌样本但并非三阴乳腺癌样本;而TNBC的定义是,乳腺癌样本中的三阴乳腺癌样本。这两类都是有细分亚型的,所以才会出现组内又有分组的情况,看我前边给出的两个幕布笔记就明白啦~~

题外话

面对已经发表的文章,还是需要有怀疑精神的,我们更需要做的是,认真走好每一步,要让自己相信自己走出的每一步脚印~

0 人点赞