数据挖掘不可小觑测量级别

2019-07-15 17:27:31 浏览数 (1)

数据挖掘不可忽视测量级别

Data Analyst

为保证模型精准度,通常,构建模型前需要对样本进行缺失值、异常值、数据合并、数据离散化以及变量转换等多方面的处理,处理过程中,变量测量级别的确定贯穿其中。

测量类型通常包括名义测量、次序测量、标度测量与二分取值型测量,其中标度测量包括间距测量与比率测量两种。

啥是测量类型?

Data Analyst

什么是测量类型?

  • 名义测量

名义测量是等级最低的测量类型,也称为定名测量,数值的含义比较单一仅仅代表某些分类或者属性,这样的变量没有办法进行大小的区分。例如民族可以分为汉族、蒙族、满族等等;人口按照肤色可以分为黄种人、白种人、黑人等等;企业分为国企、股份制企业、私企等等。

  • 次序测量

次序测量的量化水平高于名义测量,次序测量的变量具有排序的特质,例如超市规模可以分为大型、中型与小型;人们的生活水平可以分为贫困、温饱、小康与富裕对知识的掌握程度可以分为略懂、了解、掌握与精通等等。

  • 间距测量

间距测量的量化程度更高级一些,这种量化方式的取值不再是类的编码,而是具有一定单位实际测量值。间距测量的变量可以进行加减运算,但是不能够进行乘除运算,这是由于测量等级的变量所取的0不再是物理意义上绝对的0。例如平均结婚年龄这个变量,城市为26岁、农村为22岁,通常农村的平均结婚年龄要早于城市

  • 比率测量

比率测量是最高级的测量等级,这种测量方法除了具有间距测量等级的所有特性外,同时也赋予了0具有物理上的绝对意义,并且可以进行加减乘除运算。例如增长率变量。

  • 二分取值

二分取值是一种特殊的度量形式,既可以视其为名义变量,也可以视其为单独的测量标准,常见于logistic回归中。例如消费时1表示购买0表示不购买;营销时1表示客户流失0表示客户留存在市场分析领域,通常将二分取值变量假设为名义变量或者定类变量

测量类型中的坑

Data Analyst

定义变量类型时,如果定义错误会为后续工作带来很大的麻烦,例如变量为分类变量,但是却错误的将其定义为了定序变量,则会导致建模后的分析结果出现非常大的偏差

不同的测量级别间比较好区分,定类测定与定序测定间的区别在于变量内部是否具有顺序的含义,定类测定与定距定比测定间的区别可以理解为分类与连续间的区别。

实际工作中,经常会遇到部分变量水平很多的情况,例如城市字段,可能全国有500多个城市,这个变量入模时是将它看做分类变量还是连续变量呢?

通常,SAS中以12作为阈值,如果变量的水平超过12个则判定变量为连续变量。针对这种水平较多的变量,最好不要直接用数据挖掘的功能进行处理,如果直接将其作为分类变量,则会导致计算量急剧升高,一般我都会先进性分组处理后再考虑构建模型,例如可以考虑将中部地区的城市全部标记为1、东部地区的城市全部标记为2。当然,分组的前提是,一定要遵循现实意义。

0 人点赞