文章目录
- 8-点击流数据分析项目-Hive分析
- 一、环境准备与数据导入
- 1.开启hadoop
- 2.导入数据
- 二、创建hive表
- 创建 原始数据表(clickstreamdata-pre):
- 创建点击流pageview表clickstreamdata-pageview
- 创建点击流visit表clickstreamdata-visits
- 三、数据导入Hive
- 四、生成统计指标
- 生成统计数据指标的明细表
- 导入数据(2021-09-18的数据)
- 按小时统计pvs
- 按天统计pvs
- 统计页面pvs值
- 统计2021-09-18这个分区里面的受访页面的top1
- 统计访问表数据
- 回头/单次访客统计
- 查询今日所有回头访客及其访问次数。
- 人均访问频次
- 人均页面浏览量
- 五、创建hive的数据临时表
- 每天的pvs值
- 指定日期的pvs值
- 每天的page的pvs值
- 六、导入mysql数据库表
- 查看sqoop安装目录
- 创建Mysql数据库
- 使用sqoop导出到mysql
- 总结
- 一、环境准备与数据导入
8-点击流数据分析项目-Hive分析
一、环境准备与数据导入
1.开启hadoop
如果在lsn等虚拟环境中开启需要先执行格式化,如果已经格式化的就不要二次格式化了
代码语言:javascript复制hadoop namenode -format
启动Hadoop
代码语言:javascript复制start-dfs.sh
start-yarn.sh
启动Hive
代码语言:javascript复制hive
查看是否启动
代码语言:javascript复制jps
2.导入数据
备注:本步骤不用重复执行,第7部分已经执行完成了,重复一遍,是为了回顾文件的具体位置 将数据上传到hadoop集群所在节点
备注,MR清洗后的数据集见:https://download.csdn.net/download/m0_38139250/75060549
创建hdfs目录
代码语言:javascript复制hadoop fs -mkdir -p /sx/clickstream
代码语言:javascript复制hadoop fs -mkdir /sx/clickstream
hadoop fs -put /home/ubuntu/Code/clickstreamdata-pre /sx/clickstream
hadoop fs -put /home/ubuntu/Code/clickstreamdata-pageviews /sx/clickstream
hadoop fs -put /home/ubuntu/Code/clickstreamdata-visits /sx/clickstream
二、创建hive表
进入hive创建数据表 在终端输入hive 进入hive界面
代码语言:javascript复制 hive
创建 原始数据表(clickstreamdata-pre):
对应mr清洗完之后的数据clickstreamdata-pre,而不是原始日志数据
代码语言:javascript复制 drop table if exists ods_weblog_origin;
create table ods_weblog_origin(
valid string,
remote_addr string,
remote_user string,
time_local string,
request string,
status string,
body_bytes_sent string,
http_referer string,
http_user_agent string)
partitioned by (datestr string)
row format delimited
fields terminated by '