文章目录
- 5-网站日志分析案例项目回顾与点击流数据分析项目介绍
- 一、网站日志流量数据分析
- 1.背景:
- 2.日志种类
- 3.分析指标
- 4.日志流量数据分析系统
- 二、点击流日志数据分析
- 1.点击流和网站日志
- 2、点击流流程
- 3.原始数据样式:
- 4.页面点击流模型Pageviews表
- 5.点击流模型Visits表
- 三、如何进行数据分析
- 1.网站流量质量分析
- 3.网站内容及导航分析
- 4.网站转化及漏斗分析
- 4.1 助力和流失
- 4.2迷失
- 四、流量分析常见指标
- 1、常见指标
- 2、来源分析
- 五、整体技术架构流程
- 一、网站日志流量数据分析
5-网站日志分析案例项目回顾与点击流数据分析项目介绍
参考: https://www.kancloud.cn/java-jdxia/big-data/606445 https://www.cnblogs.com/rmxd/p/11455810.html
一、网站日志流量数据分析
1.背景:
在互联网应用中,日志是非常重要的数据,因为互联网项目往往要求是7*24不间断运行的,所以能获取到监控系统运行的相关日志数据并进行分析就显得非常重要。网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为数据,进行分析,从而得到有价值的信息,并基于这些信息对网站进行改进。
2.日志种类
①系统日志:开发人员在系统后台代码中增加的日志输出语句,如果是Java语言,通常采用log4j或slfj框架技术进行一些日志语句的输出,但这类输出信息并不全面,不能细致地把系统运行信息进行输出。 ②埋点日志:在现有系统集成相应代码,捕捉系统特定的事件,输出一些相关的信息。
3.分析指标
①PV(Page View) 访问量:也叫点击量,即一天之内整个网站中的页面被访问的次数(对同一个页面重复访问也记为不同的PV) ②UV(Uniquer Visitor) 独立访客数:即一天之内访问网站的人数(同一个人在一天之内访问网站多次,也只能算一个UV) ③VV(Visit View) 会话总数:即一天之内会话总的数量,所谓一次会话,指的是从访问第一个页面开始,会话开始,直到访问最后一个页面结束,关闭所有页面,会话结束;会话可以认为在访问第一个页面时开始,访问所有页面完成并关闭或超过指定时长没有后续访问都认为会话结束。 ④BR(Bounce Rate) 跳出率:即一天之内跳出的会话总数占所有会话总数的比率。所谓跳出指的是一个会话中只访问过一个页面会话就结束了。跳出会话占全部会话的比率,称为跳出率。这个指标在评价推广活动的效果时非常的有用。 ⑤NewIP NewIP:即新增IP总数,一天内访问网站的所有IP去重后,检查有多少是在历史数据中未出现过的,这些数量指的就是新增的IP总数,这个指标可以一定程度上体现网站新用户的增长情况。 ⑥NewCust NewCust:即新增独立访客数,一天之内访问网站的人中,有多少人是在历史记录中从来没有出现过的。这个指标可以从另一个角度体现网站用户增长的情况。 ⑦AvgTime AvgTime:平均访问时长,所谓一个会话的访问时长,是指一个会话结束的时间—会话开始时间。将一天之内所有会话的访问时长求平均值,就是平均访问时长,这个指标可以体现出网站对用户的粘性大小。 ⑧AvgDeep AvgDeep:平均访问深度,所谓一个会话的访问深度,是指一个会话中的所有源地址去重后计数得到的指标。将一天之内的所有会话的访问深度求平均值就是平均访问深度。这个指标可以体现出网站对用户的粘性大小。
4.日志流量数据分析系统
二、点击流日志数据分析
1.点击流和网站日志
点击流(Click Stream)是指用户在网站上持续访问的轨迹。众所周知,用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。目前点击流数据的获取方法有很多,例如通过JS进行事件捕获、发布客户端应用进行采集、网站日志分析等等,本文仅以网站日志分析为例进行阐述。
点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。关于点击流数据更多系统的解释,推荐阅读《点击流数据仓库》一书。
点击流数据是网站运营分析的主要数据依据。基于用户的点击流数据可以进行诸如用户行为、用户忠诚度、用户价值、系统优化等一系列的分析。那么用户的点击流数据都包含哪些?我们该如何获得这些点击流数据呢?让我们先了解一下网站的构成以及用户访问网站的一些基本原理。首先,网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,我们就可以确定网页被依次访问的顺序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。通过Sessionid与Referrers的结合,我们就可以确定每个用户依次访问网站的网页顺序。如果把Page视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。
2、点击流流程
点击流:点击流(Click Stream)是指用户在网站上持续访问的轨迹,形成点击事件,它会记录用户浏览站点的整个过程。
3.原始数据样式:
4.页面点击流模型Pageviews表
session为一个用户,用户对网站的每次访问。
5.点击流模型Visits表
(按session聚集的页面访问信息)
这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量
三、如何进行数据分析
网站数据分析整体来说是一个内涵非常丰富的体系,其整体过程是一个金字塔结构:
改善网站(电商、社交、电影、小说)的运营,获取更高投资回报率(ROI)
1.网站流量质量分析
流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入
### 2.网站流量多维度细分
细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。
3.网站内容及导航分析
对于所有网站来说,页面都可以被划分为三个类别:
- 导航页
- 功能页
- 内容页
首页和列表页都是典型的导航页; 站内搜索页面、注册表单页面和购物车页面都是典型的功能页, 而产品详情页、新闻和文章页都是典型的内容页。
比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:
第一个问题:访问者从导航页进入,在还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因。 第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑在内容类页面提交交叉信息推荐。
4.网站转化及漏斗分析
所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述; 对于转化渠道,主要进行两部分的分析: 访问者的流失和迷失
4.1 助力和流失
造成流失的原因很多,如: 不恰当的商品或活动推荐 对支付环节中专业名词的解释、帮助信息等内容不当
4.2迷失
造成迷失的主要原因是转化流量设计不合理,访问者在特定阶段得不到需要的信息,并且不能根据现有的信息作出决策
四、流量分析常见指标
1、常见指标
课程中涉及的分析指标主要位于以下几大方面: 基础分析(PV,IP,UV) PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。 IP(独立IP):指独立IP数。00:00-24:00内相同IP地址之被计算一次。 UV(独立访客):即UniQue Visitor,访问您网站的一台电脑客户端为一个访客。 00:00-24:00内相同的客户端只被计算一次。 趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。 对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。 当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。 访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。
2、来源分析
来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。 搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。 搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。 最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。 来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。 来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。 来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。
五、整体技术架构流程
- 1、数据采集
- 2、数据预处理
- 3、数据入库
- 4、数据分析
- 5、数据展示
- nginx:反代理服务器
- 生成日志文件
- shell脚本
- flume
- 日志数据采集到hdfs
- hive
- 实现sql语句本质就是mr程序
- 数据统计及分析
- sqoop
- 数据导入数据出
- 将数据导出到关系型数据库
- 数据导入数据出
- 数据的可视化处理
- springboot vcharts生成图表