今年回家有人问了我一个问题,大数据是什么?在这个领域里工作了这么久,竟然一时不知道怎么回答。是的,大数据到底是什么呢?每个人都在谈论,比如大数据分析、大数据XX,政府工作报告上“大数据”这样的关键字眼也经常出现,但是大数据这个名词含义下到底是什么呢?
首先查阅百度百科,他是这么描述的:
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
读完后是不是觉得这一大段文字在说啥?读者可能觉得百度百科可能不靠谱,那么搜下维基百科呢?
大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。 大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
这两段文字说了和没说一样,大数据分析和传统的数据分析到底有什么区别,无非是一个是大数据,一个是小数据。本质上来说,都是把原始数据进行加工、处理、分析,并从中获取到信息的过程。
那么大数据是什么呢?大数据和之前的数据分析、挖掘没有本质上的区别,大数据解决了企业如何在海量的廉价计算机进行稳定可靠的计算的问题。换句话说,大数据本质上是大规模数据处理。
谷歌没有在2003年发布了Google File System这篇论文之前,企业最多处理的数据也不过是 1 TB,而要处理这 1 TB的数据则需要满满一卡车的机器( Terdata 公司)。企业需要高端的机器才能解决数据处理的问题,高端的机器意味着昂贵,意味着要花很多钱。所以,大数据不可能普及。
Hadoop 诞生并开源后,随着各个公司的不断贡献,Hadoop 可以在越来越多的机器上稳定运行计算。企业终于可以在有限的时间内尽可能多的处理庞大的数据的工具了,有了工具,那么人工智能也就有了土壤去生长。
于是,大数据火了。于是,就有了一堆概念。但是本质依然没有变化,数据分析还是数据分析,数据挖掘还是数据挖掘,20世纪的那套理论依然可以使用,无非就是在分布式系统下重新实现一遍而已。