1. Hadoop 介绍、发展简史
文章目录
- 1. Hadoop 介绍、发展简史
- 1.1 狭义上Hadoop指的是Apache的一款开源软件。
- 2.1 Hadoop核心组件
- 3.1 官网:https://hadoop.apache.org/
- 4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
- 5.1 Hadoop发展简史
- 6.1 总结
- 2. Hadoop 特性优点、国内外应用
- 2.1 Hadoop 特性优点
- 2.1 Hadoop 国外应用
- 2.2 Hadoop 国内应用
- 2.3 总结
- 3. Hadoop 发行版本、架构变迁
- 3.1 Hadoop 发行版本
- 3.2 Hadoop 发行版本
- 4. Hadoop 架构变迁(1.0-2.0变迁)
- 5. Hadoop 架构变迁(3.0新版本)
1.1 狭义上Hadoop指的是Apache的一款开源软件。
- 用java语言实现开源软件框架
- 允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理
2.1 Hadoop核心组件
- Hadoop HDFS(分布式文件存储系统)︰解决海量数据存储
- Hadoop YARN(集群资源管理和任务调度框架)︰解决资源任务调度
- Hadoop MapReduce (分布式计算框架)︰解决海量数据计算
3.1 官网:https://hadoop.apache.org/
4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
5.1 Hadoop发展简史
- Hadoop之父:Doug Cutting
- Hadoop起源于Apache Lucene子项目:Nutch Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈∶如何解决数十亿网页的存储和索引问题
- Google三篇论文
- 《The Google file system》︰谷歌分布式文件系统GFS
- 《MapReduce:Simplified Data Processing on Large Clusters》︰谷歌分布式计算框架
- MapReduce《Bigtable: A Distributed Storage System for Structured Data》︰谷歌结构化数据存储系统
- 三篇论文中文版下载地址:https://download.csdn.net/download/qq_41684621/16268522
6.1 总结
- 狭义上Hadoop指软件广义上Hadoop指生态圈
- Hadoop之父Doug cutting
- Hadoop起源于Nutch项目
- 受Google 3篇论文启发
- 2008年开源给Apache软件基金会
2. Hadoop 特性优点、国内外应用
2.1 Hadoop 特性优点
2.1 Hadoop 国外应用
2.2 Hadoop 国内应用
2.3 总结
- Hadoop成功的魅力——通用性 精准区分做什么和怎么做 做什么属于业务问题怎么做属于技术问题。 用户负责业务Hadoop负责技术
- Hadoop成功的魅力——简单
3. Hadoop 发行版本、架构变迁
3.1 Hadoop 发行版本
3.2 Hadoop 发行版本
- Apache开源社区版本:http://hadoop.apache.org/
- 商业发行版本 Cloudera : https://www.cloudera.com/products/open-source/apache-hadoop.html Hortonworks : https://www.cloudera.com/products/hdp.html
- 目前最新版本是 :
3.2.2
4. Hadoop 架构变迁(1.0-2.0变迁)
- Hadoop 1.0 HDFS(分布式文件存储) MapReduce(资源管理和分布式数据处理)
- Hadoop 2.0 HDFS(分布式文件存储) MapReduce(分布式数据处理) YARN(集群资源管理、任务调度)
5. Hadoop 架构变迁(3.0新版本)
- Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
- 通用 精简内核、类路径隔离、shell脚本重构
- Hadoop HDFS EC纠删码、多NameNode支持
- Hadoop MapReduce 任务本地化优化、内存参数自动推断
- Hadoop YARN Timeline Service V2、队列配置