马上春招开始啦,是不是有些同学要开始准备面试了。关注我们公众号的同学们应该有许多是统计专业的吧,如果想找专业对口的工作是不是首先想到了数据分析呢。
之前公众号更新 R 相关的内容较多,今天小编要新开一个栏目【数据分析必知必会】,内容主要分为下面四大块,读者可以在这基础上扩展学习,有额外内容也可在评论区指出,大家共同学习。今天先介绍一些业务数据分析的内容。
- 业务数据分析(面试必问)
- SQL
- 机器学习
- 统计理论
业务篇:维度 & 指标
在业务场景中,维度和指标是基础,清晰准确地定义维度和指标能帮助我们更好地探寻数字背后的含义。下图列举了一些电商常用的指标和维度,你能正确区分吗?
维度
维度是对事物特征或属性的一种描述,一般情况下都为分类变量。单独分析维度是没有意义的,它依赖于指标。上图中,日期、渠道、省份、生命周期都是维度。
假设公司有一个新产品在线上发售,设定的维度字段就是日期、省份、渠道,省份维度下有北京、天津、河北这三个类别。
单独看省份维度得不到任何具体信息,无法知道这三个城市的在此次活动中的具体表现如何。即使是将维度组合,也无法获得有价值的信息。
指标
指标是对事物的具体度量单位,通常情况下都可以用数值来展示。上图中,曝光人数、点击人数是非常常见的基础指标,而利润率、访购率、点击率这类需要通过计算得到的是复合指标。指标虽然有具体含义,但仍需要结合维度讨论。
下面我选取部分维度和指标组合成一张表进行举例分析:
第一条数据的解读是:2022年2月1日,在小程序上点击该产品的用户中有 30% 来自北京,通过小程序下单该产品的用户有 15% 是北京的。
SQL 实现
使用不同维度组合,可以获得不同信息,但是数据并不是简单累加的,需要根据维度重新聚合。比如只看日期和渠道,就能知道小程序和 APP 各自的点击率和购买率,SQL 实现如下:
代码语言:javascript复制select dt,channel,click_rate,buy_rate
from table
group by dt,channel
得到数据为下表,比较发现 APP 的点击率和购买率更高,因此可以在 APP 上增加宣传投入。对于小程序点击率低,需要思考原因,进而做出相应调整。
由于在实际场景中,会考虑不同维度组合,分别查询很麻烦,这时可以通过 Hive 中的grouping sets
实现,它等价于将不同维度的group by
结果集进行union all
。
首先,确定好想看的维度组合,例如:
维度组合 |
---|
日期、省份、渠道 |
日期、省份 |
日期、渠道 |
代码实现如下:
代码语言:javascript复制select dt,province,channel,click_rate,buy_rate
from table
group by dt,province,channel
grouping sets(
(dt,province),
(dt,channel),
(dt,province,channel)
)
等价于:
代码语言:javascript复制select dt,province,channel,click_rate,buy_rate
from table
group by dt,province,channel
union all
select dt,province,null channel,click_rate,buy_rate
from table
group by dt,province
union all
select dt,channel,null province,click_rate,buy_rate
from table
group by dt,channel
上述代码得到的数据较多就不做展示了,这里给出例子的建表语句大家可以自行尝试噢。
代码语言:javascript复制CREATE TABLE table
(`dt` datetime, `province` varchar(2), `channel` varchar(3), `click_rate` varchar(3), `buy_rate` varchar(3))
;
INSERT INTO table
(`dt`, `province`, `channel`, `click_rate`, `buy_rate`)
VALUES
('2022-02-01', '北京', '小程序', '30%', '15%'),
('2022-02-01', '天津', '小程序', '15%', '9%'),
('2022-02-01', '河北', '小程序', '21%', '10%'),
('2022-02-01', '北京', 'APP', '68%', '62%'),
('2022-02-01', '天津', 'APP', '54%', '46%'),
('2022-02-01', '河北', 'APP', '45%', '36%'),
('2022-02-02', '北京', '小程序', '25%', '14%'),
('2022-02-02', '天津', '小程序', '19%', '10%'),
('2022-02-02', '河北', '小程序', '16%', '8%'),
('2022-02-02', '北京', 'APP', '73%', '66%'),
('2022-02-02', '天津', 'APP', '46%', '40%'),
('2022-02-02', '河北', 'APP', '38%', '30%')
;
小编有话说
如果你觉得这个栏目对你有帮助的话,请给我们点个赞吧,这样就有继续更新的动力哟。如果有写错或不到位的地方,希望大家在评论区及时指出。最后希望大家都能收获一个满意的 offer ~
最近在和出版社合作,为咱们公众号读者带来福利,免费获得 R 语言相关书籍。
《R语言数据分析与可视化从入门到精通》 本书有以下四个特点:
- 理论为辅、实践为主。本书涉及一些必要的理论知识,特别是在数据分析部分,但总体以实践为主,因此几乎每节都有大量的代码,方便读者实践。
- 知识全面、系统。本书在介绍了R语言的基础知识后,从数据获取和导出、数据清理和操作、数据分析和可视化方面分别进行了探讨,内容由浅入深、循序渐进。
- 案例广泛。本书中的案例涉及心理学、社会学、医学、商业和经济等领域,但并不需要读者具备这些领域的专业知识。
- “新手问答”和“小试牛刀”知识模块。“新手问答”主要对读者学习过程中易出现的疑问或容易犯的错误进行针对性的解答;“小试牛刀”结合每章知识及相关技能,列举综合上机案例,让读者在学完一章内容后能及时回顾和练习,旨在让读者巩固知识、学以致用。