最近这段时间,相信好多人都在忙着写国自然标书,一晃2019年的2月份已经过去,今年只剩下10个月了,留给我们的时间不多啦(像不像导师或者主任开会时的讲话啊
不管标书写的满意与否,也都到了该交的时候,交完标书,工作重心又要回到日常的科研工作中,继续做实验·发文章的日子。
说到发文章,相信大家公认的套路都是“找分子 · 养细胞 · 养老鼠“的湿实验套路,这样的实验一旦做起来,至少要耗掉1-2年,乃至更长时间。那有没有什么发文章的捷径,无需做实验,无需花钱,无需耗费大量宝贵青春,轻松发表SCI文章,走上人生巅峰呢?答案是:有!
现今到处可见“大数据”、“数据库“、”数据挖掘”等热门词汇,在我们的身边有大量宝贵的生物医学大数据,如果能够加以合理利用,几天时间完成一篇SCI文章也绝非难事。
从本篇推文起, 科研猫 公众号将带领大家学习生物医学领域内的大数据挖掘。第一课先从一个相对简单,而又非常重要的数据库入手:GEO (Gene Expression Ominibus)。
基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。GEO(www.ncbi.nlm.nih.gov/geo/)是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集,约290万个标本,是一个极其庞大的巨无霸型公共数据库。GEO中主要存储了关于基因表达谱的数据,其中一大部分是芯片(microarray)和测序(RNA sequencing)的数据,有mRNA的,也有lncRNA和miRNA的,还包含一部分甲基化和SNP array的数据。
GEO作为一个公共数据库资源,对所有人公开免费。近几年使用GEO进行数据挖掘发表的SCI文章也日趋增多,说爆发式增长也不为过。为了检验GEO在数据挖掘当中的重要性和普适性,我们用“GEO“、“Data mining”和”TCGA“这三个关键词分别在PubMed中进行搜索,统计从1991年迄今为止每年的相关文章数量,其结果如下图所示。可以看出,自2008年开始,有关GEO数据挖掘的文章呈指数式爆发,从每年不到100篇,到每年3000篇以上。相对于另一个重要的肿瘤数据库TCGA而言,GEO的相关文章可谓遥遥领先。
现在我们开始正式的学习吧。
首先,先来看看GEO数据库的构成。GEO当中的数据主要分为两大类:用户提交的数据和GEO整理后的数据。其中,用户在提交数据的时候,GEO对数据定义了以下几个概念:Sample (样本),Series(系列)和 Platform(平台)。
其中“Sample”可以理解为被检测的样本;“Series”可以理解为一项研究中多个样本构成的数据集;而“Platform”可以理解为检测样本表达时所用的芯片/检测方法。GEO要求上传者在上传数据时,必须提供以上基本信息。GEO在得到用户上传的数据后,将产生DataSet和Profile两类数据。
GEO首先把提交的样本集中到有生物学意义和统计学上可比较的GEO数据集组(DataSets),能够提供关于一个实验的相关更改,作为下游数据挖掘和数据显示工具的基础。而表达谱(Profile)则来自于DataSets基因表达谱信息,其存储了单个基因表达的数据资料。
(轻点图片,查看高清大图~)
熟悉了GEO的构成,后续就是如何分析其中的数据了。为了方便用户对数据进行初步的分析,GEO本身就提供了如GEO2R及聚类、箱线图、基因查找等工具,这些分析工具可以为我们提供关于数据信息的初步挖掘结果,但是如果想要深入探讨临床表型与基因表达的相关性,或者筛选出发挥重要调控作用的核心基因出来,GEO自带的分析工具就显得有些捉襟见肘了。
后面的课程中,我们会带领大家一步步学习如何由浅入深地分析GEO当中的数据,实现较为复杂的挖掘和绘图,正如下图所示的层次聚类、火山图、主成分分析等高级操作。敬请关注