Hadoop架构体系

2019-09-29 17:00:40 浏览数 (1)

官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common。

HDFS架构

HDFS分布式文件存储系统,主要特点是:

可以运行在普通低成本硬件之上并且具备高容错性(硬件容错)

适合高吞吐量的大数据存储,但并不强调低延迟

适合一次写,多次读的场景,不支持随机读写;

map-reduce

map-reduce是一个计算框架,绝大部分的数据处理都可以转化为map、reduce组合,然后利用map-reduce框架进行计算、处理;

yarn

资源管理器,核心的思想是将资源的调度管理与资源监控分割为两个进程,其中一个是ResourceManager,另一个是NodeManager,前者负责资源的分配、后者负责资源监控;

详细解释map过程的细节

map过程主要是实现key-value集合到key-value集合的映射,可以实一对一、一对多、多对多映射;

详细过程是:map -> group -> sorted -> partitioned

group:相同的key放到一起;

sorted:按照key进行排序

partition:对key进行分区,最终分区数量一般等于task数量;

0 人点赞