官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common。
HDFS架构
HDFS分布式文件存储系统,主要特点是:
可以运行在普通低成本硬件之上并且具备高容错性(硬件容错)
适合高吞吐量的大数据存储,但并不强调低延迟
适合一次写,多次读的场景,不支持随机读写;
map-reduce
map-reduce是一个计算框架,绝大部分的数据处理都可以转化为map、reduce组合,然后利用map-reduce框架进行计算、处理;
yarn
资源管理器,核心的思想是将资源的调度管理与资源监控分割为两个进程,其中一个是ResourceManager,另一个是NodeManager,前者负责资源的分配、后者负责资源监控;
详细解释map过程的细节
map过程主要是实现key-value集合到key-value集合的映射,可以实一对一、一对多、多对多映射;
详细过程是:map -> group -> sorted -> partitioned
group:相同的key放到一起;
sorted:按照key进行排序
partition:对key进行分区,最终分区数量一般等于task数量;