文章目录
- 4-网站日志分析案例-日志数据统计分析
- 一、环境准备与数据导入
- 1.开启hadoop
- 2.导入数据
- 二、借助Hive进行统计
- 1.1 准备工作:建立分区表
- 1.2 使用HQL统计关键指标
- 总结
- 一、环境准备与数据导入
4-网站日志分析案例-日志数据统计分析
一、环境准备与数据导入
1.开启hadoop
如果在lsn等虚拟环境中开启需要先执行格式化
代码语言:javascript复制hadoop namenode -format
启动Hadoop
代码语言:javascript复制start-dfs.sh
start-yarn.sh
查看是否启动
代码语言:javascript复制jps
2.导入数据
将数据上传到hadoop集群所在节点
创建hdfs目录
代码语言:javascript复制hadoop fs -mkdir -p /sx/cleandlog
将数据上传到hdfs上,并重命名为log2015_05_30
代码语言:javascript复制hadoop fs -put /home/ubuntu/Code/part-r-00000 /sx/log2015_05_30
二、借助Hive进行统计
1.1 准备工作:建立分区表
HIVE 为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)
代码语言:javascript复制hive>CREATE EXTERNAL TABLE logtable (ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't' LOCATION '/sx/cleandlog';
建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150530这一天的日志进行分区)
代码语言:javascript复制hive>ALTER TABLE logtable ADD PARTITION(logdate='2015_05_30') LOCATION '/sx/cleandlog/2015_05_30';
hive>LOAD DATA INPATH '/sx/log2015_05_30' INTO TABLE logtable PARTITION (logdate ='2015_05_30');
1.2 使用HQL统计关键指标
(1)关键指标之一:PV量
页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。这里,我们只需要统计日志中的记录个数即可,HQL代码如下:
代码语言:javascript复制hive>CREATE TABLE logtable_pv_2015_05_30 AS SELECT COUNT(1) AS PV FROM logtable WHERE logdate='2015_05_30';
select * from logtable_pv_2015_05_30;
(2)关键指标之二:注册用户数
该论坛的用户注册页面为member.php,而当用户点击注册时请求的又是member.php?mod=register的url。因此,这里我们只需要统计出日志中访问的URL是member.php?mod=register的即可,HQL代码如下:
代码语言:javascript复制hive>CREATE TABLE logtable_reguser_2015_05_30 AS SELECT COUNT(1) AS REGUSER FROM logtable WHERE logdate='2015_05_30' AND INSTR(url,'member.php?mod=register')>0;
select * from logtable_reguser_2015_05_30;
(3)关键指标之三:独立IP数
一天之内,访问网站的不同独立 IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可,在SQL中我们可以通过DISTINCT关键字,在HQL中也是通过这个关键字:
代码语言:javascript复制hive>CREATE TABLE logtable_ip_2015_05_30 AS SELECT COUNT(DISTINCT ip) AS IP FROM logtable WHERE logdate='2015_05_30';
select * from logtable_ip_2015_05_30 ;
(4)关键指标之四:跳出用户数
只浏览了一个页面便离开了网站的访问次数,即只浏览了一个页面便不再访问的访问次数。这里,我们可以通过用户的IP进行分组,如果分组后的记录数只有一条,那么即为跳出用户。将这些用户的数量相加,就得出了跳出用户数,HQL代码如下:
代码语言:javascript复制hive>CREATE TABLE logtable_jumper_2015_05_30 AS SELECT COUNT(1) AS jumper FROM (SELECT COUNT(ip) AS times FROM logtable WHERE logdate='2015_05_30' GROUP BY ip HAVING times=1) e;
select * from logtable_jumper_2015_05_30 ;
PS:跳出率是指只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。这里,我们可以将这里得出的跳出用户数/PV数即可得到跳出率。
(5)将所有关键指标放入一张汇总表中以便于通过Sqoop导出到MySQL
为了方便通过Sqoop统一导出到MySQL,这里我们借助一张汇总表将刚刚统计到的结果整合起来,通过表连接结合,HQL代码如下:
代码语言:javascript复制hive>CREATE TABLE logtable_2015_05_30 AS SELECT '2015_05_30', a.pv, b.reguser, c.ip, d.jumper FROM logtable_pv_2015_05_30 a JOIN logtable_reguser_2015_05_30 b ON 1=1 JOIN logtable_ip_2015_05_30 c ON 1=1 JOIN logtable_jumper_2015_05_30 d ON 1=1;
select * from logtable_2015_05_30 ;
使用Sqoop导入到MySQL以及可视化展示部分不再介绍,详细可参考 https://www.cnblogs.com/edisonchou/p/4464349.html
总结
本文为网站日志分析案例的第4部分,基于MR清洗后的数据导入HIVE中,然后进行统计分析。