最新 最热

每周二晚云原生正发声 l 多种模式下的深度学习弹性训练

云原生在近几年的发展越来越火热,作为云上最佳实践而生的设计理念,也有了越来越多的实践案例,而一个个云原生案例的背后,是无声的巨大变革。 腾讯云主办首个云原生百科知识直播节目——《云原生正发声》。直播内容围绕云...

2021-04-19
1

Hive企业级性能优化(好文建议收藏)

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。

2021-04-15
0

MapReduce初体验——WordCount 单词总和

cloudera https://repository.cloudera.com/artifactory/cloudera-repos/

2021-04-15
0

什么是MapReduce

Reduce负责数据合并 reduce: [k2, {v2,…}] → [k3, v3]

2021-04-15
0

Spark性能调优

(2)尽量少对RDD进行算子操作,如果有可能,尽量在一个算子里面实现多个功能;

2021-04-13
0

MapReduce面试题

1.MapReduce核心思想 分而治之,先分后和(只有一个模型) 【将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。适用于大量复杂的、时效性不高的任务处理场景(大规模离线数据处理场景)。】 Map负责数据...

2021-04-13
1

MapReduce一次读取多个文件(详细步骤)

import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.lib...

2021-04-13
0

MapReduce十步执行流程 (详细介绍)

InputFormat 在HDFS文件系统中读取要进行计算的数据 输出给Split

2021-04-13
0

2021数仓面试笔记

并行执行模式   推测执行模式   数据倾斜时开启负载均衡模式   map缓冲区大小   溢写磁盘百分比   开启combanier提前预聚合   设置reduce拉取数据的内存缓冲区大小   开启kryo序列化   使用Snappy压...

2021-04-13
1

Hive参数调优

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可...

2021-04-13
0