首先通过下面4种对应场景帮助理解数据挖掘的4种任务
(1)老板要求小白做一份市场分析——预测
拿到市场分析的数据源后就要明确知道,分析市场最主要的价值就在于“先知”,即比竞争对手提前预知市场行情。因此接到市场分析的工作后,不用迷茫,预测是它的价值所在。
(2)老板要求小白对店铺的日常数据进行监控——异常检测
平时监控店铺的数据时,如果一切正常,那么就什么工作都不用做。而异常检测主要的工作就来自异常情况,包括跟行业阈值对比,一旦低于行业阈值就被视为异常。
(3)老板要求小白分析一下订单数据或销售数据——探索关系
探索关系的工作是最有趣的,因为你说不定会发现一些非常有趣的关系,例如影响买家下
单的主要因素。在Excel应用中,最简单粗暴的方法就是用散点图来观察数据。
(4)老板要求小白分析一下客户数据——聚类
相信很多读者都有过这样的苦恼,手里有客户的数据,但是不知道如何将效益最大化地利用。那么,这就涉及对客户进行分类。通过分类可以知道哪些客户是有价值的,哪些客户是没有价值的。
预 测
预测这个任务在很多场景可以应用到,例如:、预测某个行业未来的市场走势;预测买家会不会响应我们的营销主张;预测股票走势/福利彩票开奖号码;
预测自己的体重/身高。
在Excel中,结合数据挖掘套件,可以非常简单地完成【预测】这个任务。虽然用鼠标单击几下就可以完成【预测】,但是做【预测】的方法有好几种,而且在不同的
情况下要应用不同的方法。如果用错了方法,可能程序就会报错。即使程序不报错,出来的结果也可能是差强人意的。具体用哪种方法,我们的依据是什么呢?
答案是【数据类型】。我在这里将数据分成3种类型(当然一些讲数据分析、数据挖掘的书里面的分类方法可能会跟我的分类不一样)。【数据类型】分为【定量】【定性】和【时间序列】这3种。【定量】就是由0~9组成的数值,当数据是这种数值时,我们就可以把它归类为【定量】数据类型。【定性】一般是字符型数据,例如中文、英文就是一种字符型的数据。【时间序列】跟【定量】非常接近,但不同的是,【时间序列】是时间格式的数据,例如电脑的系统时间就是时间格式的数据,被称为【时间序列】。下面是不同的数据类型对应的分析方法(不局限以下方法)。【定量】对应【线性回归】。【定性】对应【逻辑回归】。【时间序列】对应【时间序列预测】。怎么选择就要看我们要预测的维度了,是根据数据的变化来预测的。
探索关系
【相关性】用来反映两个或多个维度之间的相关密切程度,例如在上面的例子中,文身与畸形儿的关系就是比较紧密的。两者相关紧密并不等于因果关系,上面的例子也说明了,并不是因为妈妈文身就导致生出的宝宝畸形了,而是文身的妈妈大多数曾经接触过毒品,才导致后面生出畸形儿。
【相关性】从影响的方向来区分有3种,分别是【正相关】【零相关】【负相关】。下面一一介绍。首先是【正相关】,只要是呈现如下图所示这种趋势的分布,就被称为【正相关】,即任意一个维度增长,另一个维度就跟着增长,反之亦然。
异常检测
异常检测也叫孤立点检测或离群点检测。正如前文所说,我们天天监控店铺数据,目的就是为了发现异常并及时预警,如果一切正常,那么我们就什么事儿都没有。万一有异常数据出现,那么我们就要做进一步的分析,找出导致数据异常的罪魁祸首。异常检测操作和观测非常简单,用箱线图或者散点图即可实现。如下图所示是某行业中销量排名在前4004名的商品的价格散点图。非常明显,这里有一个孤立点,此商品居然卖了12万多件。
当我们发现这种孤立点时,必须要考虑的是:
(1)这个数据是否有误?要如何处理?
(2)如果数据无误,那么是什么原因造成的?是否需要处理?要辨别数据是否有误,就需要调出源数据进行检查。这个步骤相当简单,只需要核对,以及根据逻辑和常理来判别即可。但也有无法判定的情况。我们先说第一种情况。如果我们判断是数据出错了,而我们又无法拿到正确的数据,此时就需要对这个异常值进行处理。异常值(在数据有误的情况下)的处理方法如下。
(1)更正。
(2)删除。
(3)替换。
本文选自《电商数据分析,淘宝实战》