最新 最热

Hadoop + Hive 数据仓库原理与架构

Hive 提供标准的 SQL 功能,Hive 的 SQL 也可以通过用户定义的函数(UDF),用户定义的集合(UDAF)和用户定义的表函数(UDTF)扩展为用户代码。

2022-07-04
1

Python之大数据库hive实战

今天和大家分享的是Python如何连接hive数据库来进行hivesql的查询操作。

2022-07-04
0

大数据学习之环境构建

【前置条件:需准备一台Linux or Mac OS 机器, 并且安装好了Docker 应用】

2022-07-04
0

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统...

2022-07-04
0

Hive使用HDFS目录数据创建Hive表分区

Hive表pms.cross_sale_path建立以日期作为分区,将hdfs目录/user/pms/workspace/ouyangyewei/testUsertrack/job1Output/crossSale上的数据,写入该表的$yesterday分区上

2022-07-03
1

Hadoop2.4 支持snappy

我们Hadoop 2.4集群默认不支持snappy压缩,但是最近有业务方说他们的部分数据是snappy压缩的(这部分数据由另外一个集群提供给他们时就是snappy压缩格式的)想迁移到到我们集群上面来进行计算,但是直接运行时报错:...

2022-07-03
0

Hive自定义函数的使用——useragent解析

想要从日志数据中分析一下操作系统、浏览器、版本使用情况,但是hive中的函数不能直接解析useragent,于是可以写一个UDF来解析。useragent用于表示用户的当前操作系统,浏览器版本信息,形如:...

2022-07-03
0

Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解

http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz

2022-07-03
0

Sqoop1.4.4原生增量导入特性探秘

要想实现增量导入,完全可以不使用Sqoop的原生增量特性,仅使用shell脚本生成一个以当前时间为基准的固定时间范围,然后拼接Sqoop命令语句即可。

2022-07-03
0

Pig 0.12.1安装和使用

[linuxidc@jifeng02 ~]$ tar zxf pig-0.12.0.tar.gz[linuxidc@jifeng02 ~]$ vi .bash_profile# .bash_profile

2022-07-03
1