相关是随机理论的基础。田径赛中百米运动员想跑得快,需要大步幅与高步频,但步幅和步却是一对相互矛盾的存在,只有步幅和步频达到最优平衡点时,人才可以跑的更快,所以任何运动员都需要建立步幅和步频之间的平衡模型。
统计关系分类
相关关系是数据分析的基石,统计关系可以理解为两大类,,:
1、函数关系:即确定性关系、确定的对应关系,反映着现象之间存在着严格的依存关系,这种关系可以用数学表达式Y=f(x)表达。例如由于价格因素,罗森某天的营业总额和商品销量之间就存在着严格的依存关系,再例如圆与半径之间也存在着严格的依存关系;
2、随机关系:即相关关系,变量间不能用函数关系精确的表达,点不能被函数完全刻画,X与Y间谁决定并谁不知道。例如销量和收入的关系。
相关关系的种类
相关关系一般有如下三种:
一对一相关:一个Y对一个X,即简单相关,生活中用的最多;
一对多相关:一个Y对多个X,即复相关,例如R方就是复相关系数;
多对多相关:多个Y对多个X,这涉及到了典型相关分析。
相关系数的种类
统计中能被称为相关系数的参数有四十多个,大部分统计软件只能提供spearman、pearson、kendall这几个相关系数,SAS除了这三个相关系数外,还能提供hoeffman相关系数,信用评分中一般会使用hoeffding相关系数,所以fico信用评分的代码一般会用SAS来写,相较于其他语言,我也更喜欢用SAS去建立信用评分模型。
此外,pearson、spearman、kendall与hoeffman相关系数要求数据起码为定序数据,如果数据为定类数据,则只能进行列联相关了。
数据相关的衡量指标
模型中一般需要Y和X间要相关,但是X之间最好不要相关。相关有统计意义上的相关和实际业务中的相关之分,有些数据变量间在统计上相关性很强,但是实际业务中却并没有关系,这种情况就需要关注数据是否出了问题。
一般会用相关系数去衡量数据的相关性。相关性具有如下特点:
1、相关性取正值还是负值取决于分子协方差;
2、相关性的绝对值在0与1之间;
3、相关性绝对值的大小可以说明事物之间相关关系的紧密程度。
一般相关系数的衡量标准为:
1、相关性绝对值<0.3表明事物间没有关系;
2、0.3<=相关性绝对值<0.5表明事物间低相关;
3、0.5<=相关性绝对值<0.8表明事物间显著相关;
4、相关性绝对值>=0.8表明事物间高度相关。
一般,相关系数非常高如0.85的情况只会出现在书本上,实际工作中我还没有遇到,如果出现这么高的相关系数,可能是遇到了伪相关悖论。我举一个例子来说明伪相关悖论是什么:例如张三是我在东北上大学时的大学同学,李四是我在北京工作的同事,张三来北京看我,我们三人便有了关联,但是如果没有我,我的北京同事和我的大学同学这辈子都不会有什么人生交集,所以张三和李四间因为我便产生了伪相关。伪相关没有办法进行检验,所以如果计算出的相关系数很高,一定要小心的判断下这两个变量在业务中是否合理。
相关系数计算的SAS代码
例如场景为下班路上,数据涉及变量为上班耗时time、年龄age、体重weight、身体状态performance、以及耗费精力energy。目的为计算分析变量间的相关关系。
下面的两段代码分别为指定固定变量与非指定固定变量两种情况下 实现相关系数计算的 SAS代码:
1、 利用with参数指定固定变量为energy,得到的结果为每个变量与energy变量的散点图:
proc corr data=XUHUI pearson spearman kendall hoeffding rank plots(only)=scatter(nvar=all ellipse=none);
var time age weight performance;
with energy;
id name;
title "Correlations and Scatter Plots with energy";
run;
2、这种写法中没有指定with参数,除了得到四个相关系数的计算结果外,还会得到变量之间的散点矩阵图,即所有变量 两两之间的相互关系:
proc corr data=XUHUI pearson spearman kendall hoeffding nosimple plots=matrix(nvar=all histogram);
var time age weight performance;
title "Correlations and Scatter Plot Matrix of Predictors";
run;