通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。
下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。
一.背景介绍
这是Olist Store制作的巴西电子商务公共数据集。该数据集包含2016年至2018年在巴西多个市场进行的10万个订单的信息。
该数据集包含9个文件,分别是:
1)olist_customers_dataset.csv
此数据集包含有关客户及其位置的信息。使用它来识别订单数据集中的唯一客户并查找订单交货地点。
2)olist_geolocation_dataset.csv
此数据集包含巴西邮政编码及其纬度/经度坐标信息。用它来绘制地图并找出卖家和顾客之间的距离。
3)olist_Order Items Dataset.csv 此数据集包括有关每个订单中购买的商品的数据。
4)olist_Payments Dataset.csv 此数据集包含有关订单付款选项的数据。
5)olist_Order Reviews Dataset.csv 该数据集包括有关客户所做评论的数据。
6)olist_Order Dataset.csv 这是核心数据集。您可以从每个订单中找到所有其他信息。
7)olist_Products Dataset.csv 该数据集包括有关Olist销售的产品的数据
8)olist_Sellers Dataset.csv 该数据集包括有关在Olist完成订单的卖家的数据。使用它来查找卖家位置并确定哪个卖家完成了每个产品的出售。
9)product_Category Name Translation.csv 将商品名从葡萄牙语翻译为英语
每个数据集字段的详细介绍,可以从数据来源看到:
https://www.datafountain.cn/dataSets/22/details
二.提出问题
对数据集的关键指标进行趋势观察,暴露出所含的问题点,进而评估olist平台的运营情况以及需要改进的方向。分析思路从下面3关维度展开:
1.平台销售情况
平台上订单量最多的产品类是什么?
订单量最少的产品类是什么?
哪个价格区间的订单量最多?
订单变化量与交易额变化量的趋势?
客单价变化情况?
并根据2016--2017/2017--2018两个年度的信息来预测未来的订单情况。
2.物流交付表现
产品交付的平均时间以及准时率如何?
运费情况?根据此信息可以改进物流方式及派送方式。
3.用户信息
用户数量地理分布情况?
用户的评价情况?
常用的付款方式是什么?
不同消费组的消费情况是什么?
根据用户的评价如何改进平台的运营状况。
三.数据清洗
根据要分析的问题,对数据进行清洗。本次数据集中的表格较多(共9个),先根据要分析的内容去查看相对应的表格。例如:我想查看评论信息及打分情况,就去看olist_Order Reviews Dataset.csv这个文件。对每一个表格中所携带的信息先有一个大致的了解。
将9个表格分类,选择子集,列名与文件名重命名,整理清楚、规范。
观察数据中的重复值,异常值和缺失值。没有查到重复值,因为每一个订单号都是唯一的。异常值存在,缺失值也存在,如下:
灰色部分是缺失值,灰色下面部分是异常值(因为实际交货时间不可能早于发货时间)。对于此部分缺失值与异常值,进行删除处理,一是此为匿名公开数据集无法追溯数据源,二是这几个缺失值与异常值对基数很大的订单信息影响甚微。
对数据进行一致化处理:此数据集中内容比较一致,无需再次一致化处理。
使用IF函数来得到判断是否准时
这样,根据交货时间与发货时间的差,便可以用IF函数来判断是否准时到达,为方便后续可以在数据透视表中用来判断订单是否准时对情况。
四.分析
使用excel透视表,vlookup函数等功能可以得到要分析问题的结果。我们分别来看一开始要研究的问题。
1.平台销售情况
1)交易额度信息
2)订单变化量
3)客单价:
4)不同产品类的订单情况
2.物流交付表现
在此项中,只统计已成功配送至客户手中的订单。不计算尚未发货或取消发货的订单
3.用户信息
1)各州订单量及用户地域分布
2)用户评价
平台满意度打分情况如何,利用描述统计分析来表示得分概况及随时间变化的趋势
3)分析1-2分客户评论内容(词云图展示)
4)消费分组情况 付款方式占比
五.分析总结和建议
1.平台本身的销售额与订单量年度增长明显。但是从季度与月度情况细分下来看,目前处于增长缓慢的状态,需要及时的调整,获取未处于热图区域的用户。
另外,低消费人群庞大,但高消费人群的消费也需要平台方的引导,高消费人群的上升空间还有很高。
2.物流交付情况不乐观,是因为运费价格稍高,用户付出高价的运费却享受不到与之匹配的配送服务,导致1-2分的评价上升明显。平台对于物流方的运营需要共同探讨对策并及时调整。
3.客户满意度略微下降,主要集中在三个方向:
1)产品本身的质量问题,平台需要对所卖产品进行严格管控
2)物流交付问题,如果价格不下调,相应的就要提高服务质量,若服务质量很难得到满足,相应的运费价格,平台最好从运营的角度协助客户解决
3)要优化平台本身的应用程序,这部分可以结合AARRR模型来探讨各个环节的客户流失率,优化客户购买与售后体验。提升留存率与复购率
上面来自社群会员第2次修改后的项目
(https://zhuanlan.zhihu.com/p/61309012)
下面是项目修改意见:
【提问】老师,我那个数据集如果按AARRR漏斗模型(分析方法)来分析,有很多相关数据都没有,怎么办?
【回答】
1.分析方法又不只有AARRR漏斗模型,不是所有的分析都要按照一个分析方法模板去分析。选择分析方法是要根据数据和问题去选择的,不同的问题使用的分析方法不一样。
2.你的每个分析维度都是独立开的,没有把它们关联起来分析。数据要多角度去思考,既要独立去分析,也要把多个维度合起来一起看。
3.在第1次给出的意见:一开始分析没有写分析思路,不知道在分析什么,这次看到你加上了很好。
很多人刚开始学习数据分析的误区是,一上来就清洗数据,也没有分析思路,到最后分析完也不知道在分析什么。
工作中正常的分析数据流程是,在接到任务时,首先会和业务人员去沟通每个业务名称背后的含义,然后去思考指标之间的关系。会专业开会去讨论整个分析思路,再根据分析目的去找数据。如果数据不够,会让数据工程师设埋点来收取相关数据。
所以分析思路是要在一开始分析之前就已经确定了,然后再去找数据去分析问题。
4.在第1次给出的意见:PPT的背景太显脸了,加个蒙版来遮住背景,让文字更突出。这块看到已经修改好了。
需要继续改进的地方是,在写项目文章的时候,和用ppt做分析报告的场景不一样。
用ppt做分析报告的时候,面对的用户是听你讲,不用在ppt上放太多字,你把图片里的图表讲清楚就可以。
但是在写项目文章的时候,面对的用户是看你写的内容,所以这时候就不要把分析结论放到ppt里了,而是用ppt展示你的可视化图表,然后再用文字去描述图表要表达的分析结论是什么。
做项目的过程就是一个不断优化学习的过程,希望社群内部的讨论和建议可以帮助社群会员更好的完善项目。