learn from 从0开始学大数据(极客时间)
1. MapReduce 作业启动和运行机制
作业涉及三类关键进程:
- 大数据应用进程 这类进程是启动 MapReduce 程序的主入口,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群(JobTracker 进程)
- JobTracker 进程 这类进程根据输入数据量,命令下面提到的 TaskTracker 进程启动相应数量的 Map 和 Reduce 进程任务,并管理整个作业生命周期的任务调度和监控 JobTracker 进程在整个 Hadoop 集群全局唯一
- TaskTracker 进程 负责启动和管理 Map 进程、 Reduce 进程 因为每个数据块都有对应的 map 函数,TaskTracker 进程通常和 HDFS 的 DataNode 进程启动在同一个服务器
JobTracker 进程和 TaskTracker 进程是主从关系:
- 主服务器负责 分配服务器资源、作业执行的调度
- 从服务器完成具体的计算操作
2. MapReduce 数据合并与连接机制
分布式计算需要将不同服务器上的相关数据合并到一起进行下一步计算,这就是 shuffle