Apache Hadoop是一款用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个允许使用简单的编程模型跨计算机集群分布式处理大型数据集的框架。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。
Hadoop本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
Hadoop框架包括以下四个模块:
- Hadoop Common: 支持其他Hadoop模块的常用实用程序。
- Hadoop Distributed File System (HDFS™): 一种分布式文件系统,提供对应用程序数据的高吞吐量访问。
- Hadoop YARN: 作业调度和集群资源管理的框架。
- Hadoop MapReduce: 基于YARN的用于并行处理大型数据集的系统。
最近在官方首页出现了一个新的模块Hadoop Ozone,其功能是提供Hadoop的对象存储。目前处于alpha版本,docs文档中暂未提及。
优点
- 高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖。
- 高可扩展性: Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。
- 高效性: Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性: Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分。
- 低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z- Suites 等数据集市相比,Hadoop 是开源的,项目的软件成本因此会大大降低。