首先,我们要明白最小二乘估计是个什么东西?说的直白一点,当我们确定了一组数的模型之后,然后想通过最小二乘的办法来确定模型的参数。举个两变量(一个自变量、一个因变量)线性回归的例子来说明一下,如下面所示一堆散点图。
一堆观测数据绘制的散点图
上面这个图呢,我们打眼一看就想到:“这两个变量之间应该是一个线性的关系”。如果用y表示因变量,用x表示自变量,那么y和x之间的关系应该是这样的:
公式1
注意,这个模型公式中k和b是我们想要求的,k和b的取值不同,会画出不同的直线来,如下图:
同一个模型,不同参数得到不同结果
在这一堆可能的直线里面,我们要想一个办法选一个最好的出来。像选美比赛一样,台子下面需要几个举牌的评委。
那我们就想到用这样一种办法,在这些可能的直线中,我们求训练样本的那些点到直线之间的距离的和。这样,每条直线都可以有一个值,我们把这个距离的和最小的那条直线找出来,我们认为这条直线它最顺眼,因为它照顾到了所有的训练样本点的情绪,不偏不倚。这种方法就是最小二乘法。
当然,我们都是学过高等数学的文化人,我们需要用一堆公式把这个简单的事情给它复杂化,显得我们更加高深莫测,让客户给我们多加钱。就像古代青楼女子,总是会唱曲的更受追捧。
如果我们用多元的线性模型去分析多个变量(1个因变量,p-1个自变量)的情况,同样有n组观测点。我们看其中第i个点,它满足下面的公式。公式最后的ei是因为我们使用线性模型没法精准的描述实际的训练的点,就只好用个随机变量把差值表示出来。
公式2
那如果要显得更高深一点,我们把n个训练样本点全拿出来,上面的式子就变成了n个,我们再写成矩阵的形式。以满足我们从简单到复杂、再从复杂到简单的zhuangbi心态。
公式3
大家注意看上面那个公式,其中Xβ是我们的模型对我们训练样本中p-1个自变量进行预测得到的因变量的预测值,但实际上我们已知p-1个自变量带来因变量的值(是n个y组成的一个列向量)是y。那这个实际的y和我们预测的Xβ之间的距离是这样的:
公式4
我们要想办法在β的可能取值中找到一组特殊的β,使得上面这个式子的值最小。那我们自然而然想到对上面的式子进行求导,然后让导数=0,得到驻点。然后验证一下这个驻点是不是最值点,如果是的话。bingo,搞定。
公式4对β求偏导之前先展开:
公式5
公式5对β求偏导,然后令偏导为0,得到下面的公式:
公式6
可以求出β为:
公式7
那这组β可不可以让我们的公式4取得最小值呢,我们把公式7带入到公式4中
公式8
公式8中的第三项它是等于0的。所以公式8只剩下了
公式9
又因为X'X是一个正定矩阵,所以公式9中的第二项它>=0,所以
公式10
也就证明了我们的公式7中的β就是要找的那个β。
参考资料 王松桂,《线性统计模型——线性回归与方差分析》,高等教育出版社