拟合欠佳检验的实战之谈
学完统计学基础,我们熟知一种检验叫做:拟合优度检验。
当我们 咋一眼看见:拟合欠佳检验,相信大多数人都会丈二和尚摸不着头脑。
百度一下,一样不知所云。今天我们就一起谈谈拟合欠佳检验吧。
1,拟合欠佳检验与缺乏拟合的因果恋
缺乏拟合(Lack of fit ):当一个回归模型不能很好的反映数据。可能是抽样选择的样本不能很好的反映总体。也可能是遗漏了重要的变量特征。还有可能是实验设计欠佳。拟合模型时出现异常大的残差或误差,这就说明模型本身缺乏拟合。
缺乏拟合不可怕,因为我们有多种方法去检验模型是否缺乏拟合,这些方法包括:
拟合优度检验(Goodness of fit)
拟合欠佳检验(Lack-of-fit F-Test/sum of squares)
Ljung Box Test
缺乏拟合是模型欠佳的表现,而拟合欠佳检验是检测度量模型是否缺乏拟合。一个是物理表现,一个是数学度量方法。
2,实战出真知
数据样例:y1 新的因变量作为拟合欠佳检验的数据。
2.1,x 与 y 拟合出来的线性回归模型如下:
2.2,模型与y1的组合图:一眼欠佳检验
2.3,拟合欠佳检验其实是一种P值检验。
从上图的计算结果可知:SSLF= 13594 ,SSPE= 1148 ,SSE= 14742. 其中每一列的自由度 :x列的自由度为 去重计算6-2=4, y列的自由度:n-2 =9
lack of fit mean square: MSLF = SSLF/(c-2)
pure error mean square:MSPE = SSPE/(n-c)
提出假设:
原假设:模型假设的线性关系是合理有效的,即模型不缺乏拟合。
备择假设:模型假设的线性关系是不合理的无效的,即模型缺乏拟合。
方法论:
我们知道如果模型充分拟合的时候:MSLF的期望应该是趋等于MSPE的期望,也就是说欠拟合误差约等于随机误差。当MSLF/MSPE 就巧妙的转化为一:个满足F分布的统计量。接着我们自然而然的可以使用分布概率来进行P值检验了。
最后我们可以得出结论:
计算可知,统计量的值为:14.80,P-value为0.006,小于经典的置信水平0.05,所以我们有信心拒绝原假设:模型不缺乏拟合。
3,谈谈一些想法
数据到处需要验证,数据分析的价值还有什么?
数据的整个生产链条,都不可能做到100%的准确,数据的抽样选择永远存在随机误差。数据也会说谎,有好真伪。但数据能够反应我们直观感受不到的轨迹,看到不一样的存在。
数据分析使用客观的真伪去推断人类直观臆断的真伪。以伪证伪,也是数据本身的价值。至少对错的判断,不在取决于一个人主观的对错,而是群体数据反应的符合多数人的对错。
数据让我们逼近群体,避免个人极端,是多数人民主决策的依据。以数定代替人定。