最新 最热

2021年大数据Hadoop(十八):MapReduce程序运行模式和深入解析

MapReduce框架运转在键值对上,也就是说,框架把作业的输入看成是一组键值对,同样也产生一组键值对作为作业的输出,这两组键值对可能是不同的。

2021-10-11
0

2021年大数据Hadoop(十九):​​​​​​​MapReduce分区

在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个Reduce当中进行处理。例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可...

2021-10-11
0

2021年大数据Hadoop(二十):MapReduce的排序和序列化

反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。

2021-10-11
0

2021年大数据Hadoop(二十一):MapReuce的Combineer

每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一...

2021-10-11
0

2021年大数据Hadoop(二十二):MapReduce的自定义分组

GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce的逻辑,默认是每个不同的key,作为多个不同的组,每个组调用一次reduce逻辑,我们可以自定义GroupingComparator实...

2021-10-11
0

2021年大数据Hadoop(二十三):MapReduce的运行机制详解

简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个m...

2021-10-11
0

2021年大数据Hadoop(二十四):MapReduce高阶训练

统计每个手机号的上行数据包数总和,下行数据包数总和,上行总流量之和,下行总流量之和

2021-10-11
0

2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理...

2021-10-11
1

2021年大数据Hadoop(二十八):YARN的调度器Scheduler

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler...

2021-10-11
1

2021年大数据Hadoop(三十):Hadoop3.x的介绍

由于Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,即hadoop 3.0。Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS可擦除编码、多Nameno...

2021-10-11
1