最新 最热

MapReduce一次读取多个文件(详细步骤)

import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.lib...

2021-04-13
1

Hadoop 集群节点启动失败

java.net.UnknownHostException: node03: node03: 未知的名称或服务 at java.net.InetAddress.getLocalHost(InetAddress.java:1505) at org.apache.hadoop.security.SecurityUtil...

2021-04-13
0

Hive参数调优

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可...

2021-04-13
1

配置Hadoop支持LZO

首先要在需要编译的机器上安装maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像),这里可以自己搜索相应帖子。

2021-04-13
0

MapReduce集群运行模式详细步骤(小白也看的懂的步骤)

hadoop jar original-mapreduce-1.0-SNAPSHOT.jar com.czxy.Test01.WordCountDriver (这个jar后面就是你 Copy的 Reference)

2021-04-13
1

MapReduce(WordCount)算法、简单求和计数 (小白也能看得懂)

27 41 39 29 51 45 24 28 56 52 29 51 18 25 19 10 52 37 18 25 23 52 19 33 59 24 39 58 51 12

2021-04-13
1

Hive优化的21种方案

Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。...

2021-04-13
1

大数据之Hadoop面试官的11个灵魂拷问!

接下来还有很多大数据组件的灵魂拷问 准备好了吗?各位小伙伴们!!! 咱们下期再见!

2021-04-13
1

SparkCore快速入门系列(5)

铁铁们,博主前段时间在做一些项目加上找工作所以到现在才更新,(__) 嘻嘻…… 博主现在已经工作啦,后期会给你们更新一些关于数据库以及报表开发的文章哦! 接下来言归正传!!!!!!...

2021-04-13
1

最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建

作为依赖Spark的三个数据湖开源框架Delta,Hudi和Iceberg,本篇文章为这三个框架准备环境,并从Apache Spark、Hive和Presto的查询角度进行比较。主要分为三部分...

2021-04-13
1