相关性是描述客观事物相互间的联系,联系是普遍存在的,这种联系决定了事物间的相关性必然束缚在时间与空间之中,纠缠在事物运动之间;
不必吃惊:冰淇淋的销量与意外溺水死亡率成正比,因为夏天来了。
不必吃惊:啤酒与尿布的组合销售销量更好,因为人物关系有纠缠。
发现相关性不是一件坏事,发现相关性可以帮助我们预测未来,而发现因果关系意味着我们可以改变未来。
1,画点-看分布
从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当广告支出的增加后,销售收入也随之增加。二者存在正向的相关性
2,画线-看走势
对于有明显时间维度的数据,我们选择使用折线图。销售收入与广告支出的走势趋势涨跌一致,可以看出广告支出的增加,销售收入也增加了;这是很明细的相关性。
3,回归-看拟合
我们可以借助excel对广告支出与销售收入,做各种拟合,比如线性拟合,指数,对数,多项式等。这里简单做了一个线性拟合,从线性拟合函数及R方判定系数:0.8782 说明拟合的很好,数据存在正向的相关性。大家也可以借助R工具去拟合。
4,实在不行-用公式:
4.1 协方差及协方差矩阵:
R中可以运用cov(data)方法,也可以通过Excel中COVAR()函数直接获得两组数据的协方差值。正值为正相关,0为不相关,负值为负相关;公式如下:
4.2 相关系数的计算
pearson 相关系数,在R中可以运用cor()。
4.3 信息熵及互信息
信息熵及互信息,常常用在决策树的生长过程中。R中有entropy包可以计算,要求参数是离散值。
代码语言:javascript复制library(infotheo)
compute_fun<-function(x,y){
return(entropy(x) entropy(y)-entropy(cbind(x,y)))
}
pvalue<-compute_fun(data[,1],data[,2])
5,各有千秋
每一种方法,各有千秋,结合场景灵活运用很重要,不要拘于方法案例。