三言小文,道尽相关性

2022-04-27 17:46:50 浏览数 (1)

相关性是描述客观事物相互间的联系,联系是普遍存在的,这种联系决定了事物间的相关性必然束缚在时间与空间之中,纠缠在事物运动之间;

不必吃惊:冰淇淋的销量与意外溺水死亡率成正比,因为夏天来了。

不必吃惊:啤酒与尿布的组合销售销量更好,因为人物关系有纠缠。

发现相关性不是一件坏事,发现相关性可以帮助我们预测未来,而发现因果关系意味着我们可以改变未来。

1,画点-看分布

从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当广告支出的增加后,销售收入也随之增加。二者存在正向的相关性

2,画线-看走势

对于有明显时间维度的数据,我们选择使用折线图。销售收入与广告支出的走势趋势涨跌一致,可以看出广告支出的增加,销售收入也增加了;这是很明细的相关性。

3,回归-看拟合

我们可以借助excel对广告支出与销售收入,做各种拟合,比如线性拟合,指数,对数,多项式等。这里简单做了一个线性拟合,从线性拟合函数及R方判定系数:0.8782 说明拟合的很好,数据存在正向的相关性。大家也可以借助R工具去拟合。

4,实在不行-用公式:

4.1 协方差及协方差矩阵:

R中可以运用cov(data)方法,也可以通过Excel中COVAR()函数直接获得两组数据的协方差值。正值为正相关,0为不相关,负值为负相关;公式如下:

4.2 相关系数的计算

pearson 相关系数,在R中可以运用cor()。

4.3 信息熵及互信息

信息熵及互信息,常常用在决策树的生长过程中。R中有entropy包可以计算,要求参数是离散值。

代码语言:javascript复制
library(infotheo)
 compute_fun<-function(x,y){
  return(entropy(x) entropy(y)-entropy(cbind(x,y)))
 }
 pvalue<-compute_fun(data[,1],data[,2])

5,各有千秋

每一种方法,各有千秋,结合场景灵活运用很重要,不要拘于方法案例。

0 人点赞