有一个ABCD的生命科学领域划水套路很流行,就是A 基因通过 B 信号通路在 C疾病中发挥 D 功能。其它划水方式见:你的科研也是在划水吗 ?
但是在高通量测序大行其道的这10年,困扰大家的问题在于如何从繁多的基因定位到少量的几个基因,这也就是数据挖掘的核心,缩小目标基因!各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
不过绝大部分的数据挖掘通常是为了把基因数量搞小而搞小,属于生拉硬拽,东拼西凑,大多不值一提。我们还是看看正常的科研是如何通过高通量测序筛选到目标分子吧,比如2021年4月12日,中山大学孙逸仙纪念医院宋尔卫/苏士成合作组课题组在 Nature Cancer上在线发表了文章:《The IRENA lncRNA converts chemotherapy-polarized tumor-suppressing macrophages to tumor-promoting phenotypes in breast cancer》,链接是:https://www.nature.com/articles/s43018-021-00196-7 就是两个表达量芯片的高通量筛选,定位到了 IRENA 这个lncRNA ,然后进行一系列后续实验验证 IRENA 的重要性!
如下所示:
物种保守
可以看到,两个不同物种的化疗前后的差异表达量芯片都是有各自的上下调基因列表,但是 IRENA 这个lncRNA 在两个物种的这两次实验里面具有保守性,所以就定位到了它!
Diagram for the genomic location of human IRENA (left) and mouse IRENA (right). d & e, Genome browser (UCSC, http://genome.ucsc.edu/) depiction of IRENA and its conserved analogs in human (d) and mouse (e),
IRENA 这个lncRNA 的基因组特征
研究者使用了USCS浏览器去查看,然后使用ENSEMBL数据库去看ID:
- ENST00000623256 in the human assembly
- ENSMUST00000136998 in the mouse assembly.
传统芯片数据找目标基因
总共是3个芯片数据集:GSE134599, GSE134600 and GSE134601.
4个乳腺癌患者化疗前后
链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE134600
代码语言:javascript复制GSM3957995 Breast cancer patient_1_before chemotherapy
GSM3957996 Breast cancer patient_2_before chemotherapy
GSM3957997 Breast cancer patient_3_before chemotherapy
GSM3957998 Breast cancer patient_4_before chemotherapy
GSM3957999 Breast cancer patient_1_after chemotherapy
GSM3958000 Breast cancer patient_2_after chemotherapy
GSM3958001 Breast cancer patient_3_after chemotherapy
GSM3958002 Breast cancer patient_4_after chemotherapy
这个芯片平台比较小众:GPL21047 Agilent-074348 Human LncRNA v6 4X180K [Probe Name Version]
常规的差异分析呢,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
大家可以自行下载这个表达量芯片数据,走一下流程, 看看IRENA 这个lncRNA是不是显著的上调了。因为作者也没有使用其它信息了,仅仅是定位到IRENA 这个lncRNA基因而已。
3个基因工程小鼠模型
(通过同源重组的方法,构建了巨噬细胞条件敲除IRENA的小鼠(csf1r-cre;IRENAloxp/loxp))的肿瘤化疗前后:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE134601
代码语言:javascript复制GSM3958003 PyMT mice_1_without chemotherapy
GSM3958004 PyMT mice_2_without chemotherapy
GSM3958005 PyMT mice_3_without chemotherapy
GSM3958006 PyMT mice_1_with chemotherapy
GSM3958007 PyMT mice_2_with chemotherapy
GSM3958008 PyMT mice_3_with chemotherapy
类似的小众芯片:Agilent-074622 Mouse LncRNA v6 4X180K 这个时候的图表丰富一点,有火山图,GO,KEGG等生物学功能数据库的富集分析,如下所示:
同样的分析流程,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
大家可以自行下载这个表达量芯片数据,走一下流程, 看看IRENA 这个lncRNA是不是显著的上调了。也可以看看GO,KEGG等生物学功能数据库的富集分析的一致性如何!
处理前后
拿到了目标分子,就是IRENA 这个lncRNA,就可以设计各种各样的使用去干扰它,看看干扰它的后果是什么,链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE134599
这个时候又出来了一个高通量芯片的筛选:
代码语言:javascript复制GSM3957989 IRENA_1: Macrophages transfected with Lentivirus packaged IRENA
GSM3957990 IRENA_2: Macrophages transfected with Lentivirus packaged IRENA
GSM3957991 IRENA_3: Macrophages transfected with Lentivirus packaged IRENA
GSM3957992 vector_1: Macrophages transfected with Lentivirus packaged vector
GSM3957993 vector_2: Macrophages transfected with Lentivirus packaged vector
GSM3957994 vector_3: Macrophages transfected with Lentivirus packaged vector
但是,作者居然仅仅是秀了一张图:
临床意义
需要生存分析,我在生信技能树多次分享过生存分析的细节;
- 人人都可以学会生存分析(学徒数据挖掘)
- 学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?
- 基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大?
- 学徒作业-两个基因突变联合看生存效应
- TCGA数据库里面你的基因生存分析不显著那就TMA吧
- 对“不同数据来源的生存分析比较”的补充说明
- 批量cox生存分析结果也可以火山图可视化
- 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析
- 多测试几个数据集生存效应应该是可以找到统计学显著的!
- 我不相信kmplot这个网页工具的结果(生存分析免费做)
- 为什么不用TCGA数据库来看感兴趣基因的生存情况
- 200块的代码我的学徒免费送给你,GSVA和生存分析
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
- KM生存曲线经logRNA检验后也可以计算HR值
生存分析是目前肿瘤等疾病研究领域的点睛之笔!
测序数据
PRJNA555730 (RNA), PRJNA555733 (RNA) and PRJNA555732 (DNA).
这个分析起来会稍微有点麻烦,需要看B站免费NGS数据处理视频课程
蛋白质组数据
在 PXD022673 and PXD022674.
我们《生信技能树》早期也分享过蛋白质组学数据处理教程,目录如下:
- 蛋白质组学第1期-认识基础概念
- 蛋白质组学第2期-认识蛋白质组学原始数据
- 蛋白质组学第3期-蛋白质组学的三大元素
- 蛋白质组学第4期 文章搜库过程复现
- 蛋白质组学第5期搜库软件之 MaxQuant 再介绍
- 蛋白质组学第6期 搜库软件之 MaxQuant 结果数据介绍
- 蛋白质组学第7期 复现文章数据- 预处理之Perseus 的使用
- 蛋白质组学第8期 文章复现之数据处理
- 蛋白质组学第9期 文章数据分析之差异蛋白筛选和功能分析
感兴趣的也可以学习后试试看能不能处理它!