这是学习笔记的第 1999 篇文章
最近看了下线性回归的内容,还是很有感触的。也通过统计学的这样一个思维来回视原来片面的理解方式。
我们不是无限放大统计学的重要性,而是需要通过统计学的学习明白,统计学其实不是科学,而是一种科学技术。
我们可以通过一个小的例子来做下分析,这个例子参考了如下的链接:
https://blog.csdn.net/tmb8z9vdm66wh68vx1/article/details/79544739
整个案例是使用R语言实现的,通过测试也发现了彼此之间的一些问题和欠缺,而对于我们分析来说,确实是一种很便捷的工具。
我们假设身高和体重是具有相关关系,那么我们可以逐步的完善下面的信息数。
初始化数据:
> age=18:29
> height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5)
通过这两个结果集,我们可以得到相关的散点图。
> plot(age,height,main = "身高与年龄散点图")
可以看到这些散点之间还是具有一定的线性关系,而且数据也存在一些误差的情况。
建立回归方程,来继续分析
> lm.reg <- lm(height~age)
输出的结果如下:
> lm.reg
Call:
lm(formula = height ~ age)
Coefficients:
(Intercept) age
64.928 0.635
画出拟合的线性回归线
> abline(lm.reg)
其中对于数据的分析,我们分成两种方式:方差分析和T检验。
方差分析主要是针对整个模型的,而t检验是关于回归系数的
#模型方差分析
> anova(lm.reg)
Analysis of Variance Table
Response: height
Df Sum Sq Mean Sq F value Pr(>F)
age 1 57.655 57.655 879.99 4.428e-11 ***
Residuals 10 0.655 0.066
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,身高和年龄存在直线回归关系。
回归系数的T检验
> summary(lm.reg)
Call:
lm(formula = height ~ age)
Residuals:
Min 1Q Median 3Q Max
-0.27238 -0.24248 -0.02762 0.16014 0.47238
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.9283 0.5084 127.71 < 2e-16 ***
age 0.6350 0.0214 29.66 4.43e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.256 on 10 degrees of freedom
Multiple R-squared: 0.9888, Adjusted R-squared: 0.9876
F-statistic: 880 on 1 and 10 DF, p-value: 4.428e-11
由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,身高和年龄存在回归关系。