最新 最热

MapReduce编程快速入门

用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)

2022-07-05
0

数据工程师:Hive 分桶表核心知识点都在这了,值得一看!

分桶是相对分区进行更细粒度的划分。分桶将整个 hive 表数据内容按照某列属性值的 hash 值进行分区,通过分区将这些表数据划分到多个文件中进行存储。...

2022-07-04
0

Hadoop + Hive 数据仓库原理与架构

Hive 提供标准的 SQL 功能,Hive 的 SQL 也可以通过用户定义的函数(UDF),用户定义的集合(UDAF)和用户定义的表函数(UDTF)扩展为用户代码。

2022-07-04
0

一文读懂Python 高阶函数

将函数作为参数传入,这样的函数称为高阶函数。函数式编程就是指这种高度抽象的编程范式。变量可以指向函数,函数的参数能接收变量,那么一个函数就可以接收另一个函数作为参数,这种函数就称之为高阶函数。如下所示:...

2022-07-04
0

CentOS 64位上编译 Hadoop 2.6.0

Hadoop不提供64位编译好的版本,只能用源码自行编译64位版本。学习一项技术从安装开始,学习hadoop要从编译开始。

2022-07-04
1

Hadoop学习概述

Hadoop是由apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入的。它受到最先由google lab开发的mapreduce计算模型合google file system分布式文件系统的启发。2006年3月,mapreduce...

2022-07-04
0

Hadoop面试题总结「建议收藏」

mapper调优主要就一个目标:减少输出量 我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper优化 1>combine合并: 实现自定义combine要求继承reduce类。比较适合map的输出是数值型的,方便进行统计。 2>压缩...

2022-07-04
0

Hadoop单节点安装部署

机器环境Distributor ID: CentOSDescription: CentOS release 5.8 (Final)Release: 5.8Codename: Finaljdk 版本java version "1.6.0_45"

2022-07-04
0

Hadoop不适合处理实时数据的原因剖析

Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助Twitter推...

2022-07-04
0

Ubuntu 14.04下安装Hadoop2.4.0 (伪分布模式)

在Ubuntu14.04下安装Hadoop2.4.0 (单机模式)基础上配置  http://www.linuxidc.com/Linux/2015-01/112370.htm

2022-07-04
1