最近有粉丝在各个聊天群疯狂提问,说他在复现一个文献图表的时候完全没办法跟作者的结果吻合。成功的引起了我的注意,不过我微信群实在是太多了,仍然是没有来得及回复,但是粉丝非常聪明,他机智的发邮件给我提问了。可能是看到了我昨天提到的让大家请不要无限制的怼我的私人微信哈,如果提问,在公众号推文文末留言即可,或者发邮件给我,我的邮箱是 jmzeng1314@163.com
是一个铁死亡策略的非肿瘤数据挖掘文章,标题是:《Bioinformatics Identification of Ferroptosis-Related Biomarkers and Therapeutic Compounds in Ischemic Stroke》,链接是:https://www.frontiersin.org/articles/10.3389/fneur.2021.745240/full
文章提到 GSE16561 and GSE140275, were downloaded from GEO, and the LIMMA package ,然后给出来了各自的差异基因数量:
- 2,127 upregulated genes and 852 downregulated genes(普通的表达量芯片数据集:GSE16561)
- 4,584 upregulated genes and 67 downregulated genes (转录组测序数据集:GSE140275)
可以很明显看到的火山图是极不对称!
火山图是极不对称
这个数据集的链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE140275
真的是就6个简单的转录组测序样品:
代码语言:javascript复制GSM4158685 ctr_1
GSM4158686 ctr_2
GSM4158687 ctr_3
GSM4158688 stroke_1
GSM4158689 stroke_2
GSM4158690 stroke_3
但是作者提供的是如下所示的表达量矩阵文件:
代码语言:javascript复制GSE140275_Annotated_lncRNA_FPKM.txt.gz 104.7 Kb
GSE140275_Novel_lncRNA_FPKM.txt.gz 114.3 Kb
GSE140275_TUCP_FPKM.txt.gz 171.2 Kb
GSE140275_Transcript_FPKM.txt.gz 2.1 Mb
GSE140275_mRNA_FPKM.txt.gz 2.1 Mb
而且这个数据集作者写的很清楚是 in patients with AIS when compared with healthy controls. :
- 428 lncRNAs and 957 mRNAs were significantly upregulated,
- 791 lncRNAs and 4263 mRNAs were downregulated
原作者是把编码基因和非编码基因分开差异分析,各自独立绘制火山图,如下所示:
各自独立绘制火山图
并没有这个铁死亡数据挖掘文章的如此可怕的火山图的偏移。所以,我怀疑应该是作者并不懂表达量芯片和转录组测序这两个技术的数据处理差异,直接套用了limma对表达量芯片的处理代码。
其实表达量芯片的差异分析就很常规了,基本上转录组测序技术和芯片技术拿到的表达量矩阵后续分析大同小异:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:
代码语言:javascript复制We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.
十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。