最新 最热

【单点】每日突破,MapReduce自定义InputFormat

如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。...

2021-09-10
0

【单点】每日突破,MapReduce序列化

Writable实现了WritableComparable接口,间接继承了Writable, Comparable类,实现了序列化、排序的功能。而这两个功能,在MapReduce中非常重要,排序是MapTask、ReduceTask默认操作,在集群中进行数据传输时要进行序列化。...

2021-09-10
0

【单点】每日突破,MapReduce Split

问:在MapReduce进行数据处理时,会进行split数据切片,它的默认拆分规则是?如果不按照默认规则进行拆分,会发生什么现象?

2021-09-10
0

【单点】每日突破,MapReduce调优篇

如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。...

2021-09-10
0

《数据密集型应用系统设计》读书笔记(二)

「数据模型」(Data models)是软件开发中最重要的部分之一,大部分应用程序都是通过数据模型的层层叠加来构建的,例如:

2021-09-09
1

详解微信异步队列 MQ 2.0 的功能优化及拓展思路

MQ 1.0 发布之初,基本满足了一般业务场景的异步化需求,实现了单机下高性能的任务持久化和消费调度。1.0 的基本框架如下图所示:

2021-09-08
0

MapReduce 编程实践:统计对象中的某些属性

文章目录1. 生成数据2. 编写实体类3. Mapper类4. Reducer类5. Driver类6. 运行参考书:《Hadoop大数据原理与应用》相关文章:MapReduce 编程实践1. 生成数据超市消费者 数据: id, 时间,消费金额,会员/非会员使用 Python 生成...

2021-09-06
0

MapReduce 编程实践

文章目录1. MapReduce 作业流程2. 实践2.1 启动 hadoop2.2 创建 java 项目2.3 MapReduce shell2.4 MapReduce Web UI3. MapReduce 编程实践:统计对象中的某些属性 参考书:《Hadoop大数据原理与应用》 1. M......

2021-09-06
0

为何Spark更高效?

这三个特性使得 Spark 相对 Hadoop MapReduce 可以有更快的执行速度,以及更简单的编程实现

2021-09-06
0

我们并没有觉得MapReduce速度慢,直到Spark出现

Spark 拥有更快的执行速度 更友好的编程接口 迅速抢占 MapReduce 的市场份额,成为主流的大数据计算框架

2021-09-06
0