简单线性回归分析

2019-06-10 15:29:25 浏览数 (1)

这是学习笔记的第 1999 篇文章

最近看了下线性回归的内容,还是很有感触的。也通过统计学的这样一个思维来回视原来片面的理解方式。

我们不是无限放大统计学的重要性,而是需要通过统计学的学习明白,统计学其实不是科学,而是一种科学技术。

我们可以通过一个小的例子来做下分析,这个例子参考了如下的链接:

https://blog.csdn.net/tmb8z9vdm66wh68vx1/article/details/79544739

整个案例是使用R语言实现的,通过测试也发现了彼此之间的一些问题和欠缺,而对于我们分析来说,确实是一种很便捷的工具。

我们假设身高和体重是具有相关关系,那么我们可以逐步的完善下面的信息数。

初始化数据:

> age=18:29

> height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5)

通过这两个结果集,我们可以得到相关的散点图。

> plot(age,height,main = "身高与年龄散点图")

可以看到这些散点之间还是具有一定的线性关系,而且数据也存在一些误差的情况。

建立回归方程,来继续分析

> lm.reg <- lm(height~age)

输出的结果如下:

> lm.reg

Call:

lm(formula = height ~ age)

Coefficients:

(Intercept) age

64.928 0.635

画出拟合的线性回归线

> abline(lm.reg)

其中对于数据的分析,我们分成两种方式:方差分析和T检验。

方差分析主要是针对整个模型的,而t检验是关于回归系数的

#模型方差分析

> anova(lm.reg)

Analysis of Variance Table

Response: height

Df Sum Sq Mean Sq F value Pr(>F)

age 1 57.655 57.655 879.99 4.428e-11 ***

Residuals 10 0.655 0.066

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,身高和年龄存在直线回归关系。

回归系数的T检验

> summary(lm.reg)

Call:

lm(formula = height ~ age)

Residuals:

Min 1Q Median 3Q Max

-0.27238 -0.24248 -0.02762 0.16014 0.47238

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 64.9283 0.5084 127.71 < 2e-16 ***

age 0.6350 0.0214 29.66 4.43e-11 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.256 on 10 degrees of freedom

Multiple R-squared: 0.9888, Adjusted R-squared: 0.9876

F-statistic: 880 on 1 and 10 DF, p-value: 4.428e-11

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,身高和年龄存在回归关系。

0 人点赞