mapreduce_字节宝

Hive性能调优之JVM重用(5)

JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。...

hadoop jvm hive mapreduce

2021-01-22

Hive性能调优之严格模式(4)

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。

hive mapreduce

2021-01-22

Hive性能调优之Fetch抓取(1)

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。

linux mapreduce 大数据 hive

2021-01-22

Hive的数据压缩介绍及使用

在实际工作当中，hive当中处理的数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的,可以使用压缩来节省我们的MR处理的网络带宽。...

文件存储编程算法 hive Python mapreduce

2021-01-22

MapReduce之自定义outputFormat

现在有一些订单的评论数据，需求: 将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,其中数据第九个字段表示好评，中评，差评。0：好评，1：中评，2：差评。根据我们之前学习的内容,大家可能...

Python mapreduce

2021-01-22

MapReduce之自定义inputFormat合并小文件

无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。

文件存储 mapreduce 大数据 Node.js

2021-01-22

Hive基本概念入门与安装部署,使用(简单清晰,一目了然!)

在经过几天MapReduce的学习之后,我们总算是来到了Hive阶段。本篇博客小菌将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分!...

hive mapreduce hadoop 存储数据库

2021-01-22

reduce端join与map端join算法实现

本篇博客小菌为大家带来的是MapReduce中reduce端join与map端join算法的实现。

编程算法 mapreduce hadoop

2021-01-22

Hadoop详解(你想知道的这里都有!)

已经出过HDFS和MapReduce系列博客的小菌突发奇想,想拿一篇博客好好介绍一下它们的"老大哥"——Hadoop。为什么这么说,相信看完下面的内容你就知道了!...

mapreduce apache 开源分布式大数据

2021-01-22

MapTask,ReduceTask,MapReduce运行机制详解

在之前的博客中,小菌为大家分享了MapReduce的整体流程。这篇博客,主要针对MapTask与ReduceTask运行机制的一个详解与MapReduce总体运行机制做一个较为详细的介绍!...

JavaScript mapreduce

2021-01-22

93 94 95 96 97

Hive性能调优之JVM重用(5)

Hive性能调优之严格模式(4)

Hive性能调优之Fetch抓取(1)

Hive的数据压缩介绍及使用

MapReduce之自定义outputFormat

MapReduce之自定义inputFormat合并小文件

Hive基本概念入门与安装部署,使用(简单清晰,一目了然!)

reduce端join与map端join算法实现

Hadoop详解(你想知道的这里都有!)

MapTask,ReduceTask,MapReduce运行机制详解

热门文章

热门手册