MapReduce 计算框架如何运作

2021-09-06 09:59:35 浏览数 (6)

learn from 从0开始学大数据（极客时间）

作业涉及三类关键进程：

大数据应用进程这类进程是启动 MapReduce 程序的主入口，主要是指定 Map 和 Reduce 类、输入输出文件路径等，并提交作业给 Hadoop 集群（JobTracker 进程）
JobTracker 进程这类进程根据输入数据量，命令下面提到的 TaskTracker 进程启动相应数量的 Map 和 Reduce 进程任务，并管理整个作业生命周期的任务调度和监控 JobTracker 进程在整个 Hadoop 集群全局唯一
TaskTracker 进程负责启动和管理 Map 进程、 Reduce 进程因为每个数据块都有对应的 map 函数，TaskTracker 进程通常和 HDFS 的 DataNode 进程启动在同一个服务器

JobTracker 进程和 TaskTracker 进程是主从关系：

分布式计算需要将不同服务器上的相关数据合并到一起进行下一步计算，这就是 shuffle

0 人点赞