2021年大数据Hadoop（十八）：MapReduce程序运行模式和深入解析

MapReduce程序运行模式和深入解析

程序运行模式

1、本地运行模式

mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行
而处理的数据及输出结果可以在本地文件系统，也可以在hdfs上
本地模式非常便于进行业务逻辑的调试

2、集群运行模式

将mapreduce程序提交给yarn集群，分发到很多的节点上并发执行
处理的数据和输出结果应该位于hdfs文件系统
提交集群的实现步骤：

1、将Driver主类代码中的输入路径和输出路径修改为HDFS路径

TextInputFormat.addInputPath(job, new Path("hdfs://node1:8020/input/wordcount")); TextOutputFormat.setOutputPath(job, new Path("hdfs://node1:8020/output/wordcount"));

2、将程序打成JAR包，然后在集群的任意一个节点上用hadoop命令启动

hadoop jar wordcount.jar cn.lanson.WordCountDriver

深入MapReduce

1、MapReduce的输入和输出

MapReduce框架运转在键值对上，也就是说，框架把作业的输入看成是一组键值对，同样也产生一组键值对作为作业的输出，这两组键值对可能是不同的。

2、MapReduce的处理流程解析

3、Mapper任务执行过程详解

第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认情况下，Split size = Block size。每一个切片由一个MapTask处理。

第二阶段是对切片中的数据按照一定的规则解析成对。默认规则是把每一行文本内容解析成键值对。key是每一行的起始位置(单位是字节)，value是本行的文本内容。（TextInputFormat）

第三阶段是调用Mapper类中的map方法。上阶段中每解析出来的一个，调用一次map方法。每次调用map方法会输出零个或多个键值对。
第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务。
第五阶段是对每个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序。比如三个键值对<2,2>、<1,3>、<2,1>，键和值分别是整数。那么排序后的结果是<1,3>、<2,1>、<2,2>。如果有第六阶段，那么进入第六阶段；如果没有，直接输出到文件中。
第六阶段是对数据进行局部聚合处理，也就是combiner处理。键相等的键值对会调用一次reduce方法。经过这一阶段，数据量会减少。本阶段默认是没有的。

4、Reducer任务执行过程详解

第一阶段是Reducer任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有很多，因此Reducer会复制多个Mapper的输出。
第二阶段是把复制到Reducer本地数据，全部进行合并，即把分散的数据合并成一个大的数据。再对合并后的数据排序。
第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到HDFS文件中。

在整个MapReduce程序的开发过程中，我们最大的工作量是覆盖map方法和覆盖reduce方法。

mapreduce node.js 大数据

0 人点赞

2021年大数据Hadoop（十八）：MapReduce程序运行模式和深入解析

MapReduce程序运行模式和深入解析

程序运行模式

1、本地运行模式

2、集群运行模式

深入MapReduce

1、MapReduce的输入和输出

2、MapReduce的处理流程解析

3、Mapper任务执行过程详解

​​​​​​​4、Reducer任务执行过程详解

4、Reducer任务执行过程详解