机器学习（八）最小二乘法1 线性代数

文章将从线性代数和概率论统计两个角度去分析和解释最小二乘法

1 线性代数

1.1 空间解析几何的相关定义

向量：在空间几何中，称既有大小又有方向的量为向量，也叫作几何（三维）向量。
n维向量：n个数组成的有序数组（a1,a2,···,an）成为n维向量，这n个数称为该向量的n个分量，第i个数ai,第i个数ai称为第i个分量。n维向量简称为向量，一般用小写希腊字母如α，β，γ，···表示向量，小写英文字母ai，bi，ci(i=1,2,···,n)表示向量的分量。
n维向量空间向量的线性运算满足下面的运算规律：

所有以实数为分量的n维向量的集合，若在其中定义了向量的加法与数乘两种运算，且满足上述八条运算律，则称该向量集合为实数集R上的n维向量空间，记为Rn

1.2 最小二乘法

在定义了內积的n维向量空间Rn(成为欧式空间或内积空间)中，定义两个向量α和β的距离等于α-β的长度，记为d(α,β)=|α-β|,而且这样的距离满足三条基本性质：

d(α,β)=d(β,α)
d(α,β)≥0,当且仅当α=β时等号成立
d(α,β)≤d(α,γ) d(γ,β)

设W是Rn的一个子空间，它是由α1,α2,···,αs生成的，设W=L(α1,α2,···,αs).假设Rn中的一个向量β垂直于子空间W，就是指β垂直于W中的任何一个向量。回忆我们中学几何，我们学过一个点到一个平面或一条直线上的垂直距离最短，同样，在向量空间Rn*中，一个向量与某个子空间中各向量间的距离以“垂线”为最短。 最小二乘问题 我们知道实系数线性方程组:

可能无解，记为（5.4.1）式，也就是任何一组实数x1,x2,x2,···,xs,都可能使：

不等于零，记为（5.4.2）式我们设法找x′1,x′2,···,x′s,使得上式最小，用它作为线性方程组的近似解，这样的x′1,x′2,···,x′s成为方程组的最小二乘解，这种问题叫作最小二乘问题。下面利用欧式空间的概念来表达最小二乘法，并给出最小二乘解所满足的代数条件。令：

应用空间距离的概念，(5.4.2)式可写为|Y-B|2,最小二乘法就是找x′1,x′2,···,x′s，使Y与B的距离|Y-B|为最短，Y可以表示成A的列向量的线性组合：

把A的各列向量记为α1,α2,···,αs,并设W=L(α1,α2,···,αs),则Y∈W。因此，为了找X使(5.4.2)式最小，即|Y-B|2最小，就是要在W=L(α1,α2,···,αs)中找到一个向量Y，使得B到Y的距离|Y-B|比B到W中其他向量的距离都短。应用前面的讨论，如果Y=x1α1 x2α2 ··· xsαs就是所求的向量，那么C=B-Y=B-AX必垂直于子空间W，那么C垂直于子空间W的充要条件是(α1,C)=(α2,C)=···=(αs,C)=0,可写成：因此由上式可得ATC=0,即AT(B-AX)=0,或ATAX=ATB,这就是最小二乘解所满足的线性方程组，它的系数矩阵是ATA,常数项是Asup</>B.

1.2 实例

1.3 最小二乘直线

变量x和y之间最简单的关系是线性方程y=β0 β1x,实验中数据常给出点列(x1,y1),(x2,y2),···,(xn,yn),而它们的图形近似于直线，我们希望确定参数β0和β1,使得直线尽可能“接近”这些点。假若β0和β1固定，考虑直线y=β0 β1x，对应于每个数据点(xi,yi),相同的x坐标下，直线上的点列为(xj,β0 β1xj),我们称yi为y的观测值，β0 β1xj为y的预测值（由直线而定），观测值和预测值的差称为余差。

如果数据点在直线上，参数β0和β1满足方程：我们可以将上述方程写成：

当然,如果数据点不在直线上，就没有参数β0和β1使得Xβ中的预测值与观测值相等，因而Xβ=y没有解，这就是Ax=b的最小二乘解问题，只是换了种说法。向量Xβ与y的距离的平方精确表达为余差的平方和，于是使平方和最小的β同样使Xβ与y的距离最小，计算Xβ=y的最下二乘问题等价于找出β，它确定的图就是最小二乘直线。

1.4 最小二乘直线实例

（待更。。）

机器学习线性回归

0 人点赞