Hadoop的发家简史

2019-06-05 16:47:48 浏览数 (1)

说到大数据技术不得不提起Hadoop,今天加米谷大数据就来简单介绍一下Hadoop的简史。

Hadoop的起源

1、2001年,Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题;

2、2003-2004年,Google发布论文:GFS、MapReduce,受此启发的Doug Cutting等人实现了NDFS(HDFS的前身)和MapReduce机制,使Nutch性能飙升;

GFS:Google的分布式文件系统Google File System

MapReduce:Google的MapReduce开源分布式并行计算框架

3、2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会;

4、2006年,Hadoop(HDFS MapReduce)从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo,领导Hadoop的开发。

Hadoop的发展简史

5、2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展;Yahoo建设了第一个Hadoop集群用于开发;4月,第一个Apache Hadoop发布;11月,Google发表了Bigtable论文,Hbase的创建的灵感来源;

BigTable:一个大型的分布式数据库

6、2007年,第一个Hadoop用户组会议召开,社区贡献开始急剧上升;同年,Facebook开始使用Hadoop,百度开始使用Hadoop做离线处理,中国移动开始研究使用Hadoop;

7、2008年,Hive、HBase问世,Hadoop成为Apache顶级项目。8月,第一个Hadoop商业化公司Cloudera成立。同年,淘宝开始使用Hadoop;

8、2009年-2012年,Hadoop不断发展。

2009年Cloudera推出CDH平台(首个Hadoop发行版),完全由开放源码软件组成。《Hadoop权威指南》初版出版(被誉为Hadoop圣经);

9、2014年,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

演变关系

演变关系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

0 人点赞