最新 最热

kylin 安装配置实验

一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zook...

2022-05-07
1

Zeppelin 安装部署实验

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。...

2022-05-07
1

Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据

一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。  http://wiki.pentaho.com/download/attachments/23530622/weblo

2022-05-07
1

Pentaho Work with Big Data(四)—— 转换Hive里的数据

1. 建立hive表,导入原始数据,过程参考 http://blog.csdn.net/wzy0623/article/details/51133760 2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表 (1)打开PDI,新建一个作业,如图1所示。...

2022-05-07
1

Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据

1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。

2022-05-07
1

用beeline连接SparkSQL

1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性

2022-05-07
1

使用hive查询把访问网络流量会话化

《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。 一、问题提出(摘自书中原文)         为了分析网络流量,我们常常希望能够基...

2022-05-07
1

Spark 安装配置实验

http://blog.csdn.net/wzy0623/article/details/50681554

2022-05-07
0

kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

1. 配置HiveServer2,在hive-site.xml中添加如下的属性

2022-05-07
1

hive 表数据加载、表删除试验

1. 非分区表 (1)load 加载数据 本地文本文件a.txt中有一行'aaa',执行下面的命令。

2022-05-07
1