线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x e,e为误差服从均值为0的正态分布。
线性回归直线的一次关系表达式如下:
y=bx a
x为自变量,y为因变量,b为回归系数,a为截距
下列为一个班级的身高和体重数据
编号 身高x 体重y
1 153.3 45.5
2 164.9 56.0
3 168.1 55.0
4 151.5 52.8
5 157.8 55.6
6 156.7 50.8
7 161.1 56.4
求以体重y为因变量,身高x为自变量的回归方程
y=bx a(b,a为常数)
如果已知b,a,则可根据身高预测体重值
编号 身高x 体重y 预测值bx a
1 153.3 45.5 153.3*b a
2 164.9 56.0 164.9*b a
3 168.1 55.0 168.1*b a
4 151.5 52.8 151.5*b a
5 157.8 55.6 157.8*b a
6 156.7 50.8 156.7*b a
7 161.1 56.4 161.1*b a
问题可转化为,设有观测数据(x,y1),(x2,y2),...(xn,yn),假设变量之间的关系近似满足y=bx a,如何计算出a,b。
如何找出常数a,b使得由ŷi=b*xi a算出的输出值与真实观测值的距离最小?
一般采用距离平方和方式求误差 ∑(ŷi-yi)^2
而距离平方和是由观测数据和a,b共同决定的值,故等式等于
Q(a,b)=∑n(ŷi-yi)^2=∑n(b*xi a-yi)2
为了使∑n(ŷi-yi)^2最小,即求转换为
∂Q/∂a=0
∂Q/∂b=0
∂Q/∂a=-2∑n(b*xi a-yi)=0
∂Q/∂b=-2∑n(b*xi a-yi)*xi=0
第一个方程可解为
na=∑n(yi)-b∑n(xi)
a=y̅-b*x̅
y̅,x̅为各自均值,但b仍未知,再由第二个方程∑n(b*xi a-yi)*xi=0
将a=y̅-b*x̅代入表达式进行消元,可推导出b的值
∑n(b*xi y̅-b*x̅-yi)*xi=∑n(xi(y̅-yi-b*(xi-x̅)))=0
b∑n(xi(xi-x̅))=∑n(xi(yi- y̅))
b∑n((xi-x̅)^2)=∑n((xi-x̅)(yi- y̅))
求解可得
b=(∑n(xi-x̅)(yi- y̅))/∑n(xi-x̅)^2,即∑(自变量平均值-自变量)*(因变量平均值-因变量)/∑(自变量平均值-自变量)^2
a=y̅-bx̅
这里a,b均为估计值