mapreduce_字节宝

Hive快速入门系列(16) | Hive性能调优 [三] 数据倾斜

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。增加map的方法为：根据computeSliteSize(Math.max(minSize,Math.min(maxSize,block...

mapreduce hive

2020-10-28

Hive快速入门系列(18) | Hive性能调优 [五] 严格模式

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。

hive mapreduce

2020-10-28

Hive快速入门系列(19) | Hive性能调优 [六] JVM重用

JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。...

jvm hadoop hive mapreduce

2020-10-28

Hive快速入门系列(20) | Hive性能调优 [七] 推测执行

在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其...

hadoop hive mapreduce 编程算法

2020-10-28

MapReduce快速入门系列(1) | 什么是MapReduce

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行...

mapreduce 分布式数据处理大数据

2020-10-28

MapReduce快速入门系列(2) | 统计输出给定的文本文档每一个单词出现的总次数

下面的跟之前使用API一样,我们同样需要在IDEA中使用JAVA代码来书写MapReduce。这时候我们需要新建一个一个Maven工程

编程算法 mapreduce maven

2020-10-28

MapReduce快速入门系列(4) | Hadoop序列化

序列化：把内存中的对象，转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化：将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据，转换成内存中的对象。...

文件存储 hadoop mapreduce Java

2020-10-28

MapReduce快速入门系列(5) | MapReduce任务流程和shuffle机制的简单解析

Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M...

mapreduce

2020-10-28

MapReduce快速入门系列(6) | Shuffle之Partition分区

Partition分区：按照一定的分区规则，将key value的list进行分区。分区的创建分为默认的和自定义两种。

mapreduce

2020-10-28

MapReduce快速入门系列(7) | Shuffle之排序(sort)详解及全排序

排序是MapReduce框架中最重要的操作之一。 MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要否需要。默认排序是按照字典...

mapreduce 编程算法

2020-10-28

105 106 107 108 109

Hive快速入门系列(16) | Hive性能调优 [三] 数据倾斜

Hive快速入门系列(18) | Hive性能调优 [五] 严格模式

Hive快速入门系列(19) | Hive性能调优 [六] JVM重用

Hive快速入门系列(20) | Hive性能调优 [七] 推测执行

MapReduce快速入门系列(1) | 什么是MapReduce

MapReduce快速入门系列(2) | 统计输出给定的文本文档每一个单词出现的总次数

MapReduce快速入门系列(4) | Hadoop序列化

MapReduce快速入门系列(5) | MapReduce任务流程和shuffle机制的简单解析

MapReduce快速入门系列(6) | Shuffle之Partition分区

MapReduce快速入门系列(7) | Shuffle之排序(sort)详解及全排序

热门文章

热门手册