机器学习之线性回归(1)

2018-09-12 15:46:18 浏览数 (1)

回归一词最早由法兰西斯·高尔顿(Francis Galton)所使用。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐“回归到中等(即人的平均值)”的现象。不过当时的回归和现在的回归在意义上已不尽相同。

在开始理解回归分析之前,先有个二手房房价的例子,假设这里的房价只和面积,居室情况两个因素有关,那么我们就有下列的数据形式 面积 居室 房价[万] 80 2 103 100 2 120 90 3 125 60 2 85 75 3 100 100 3 150 实际情况是有更多的因素,在这里为了方便演示,使用二维数据,其他的情况,继续增加就可以了。现在需要根据上面这些数据,构建一个模型,能够预测给定一个面积和居室情况,能够估算出房价情况。。


假设面积因素为 x1,居室因素为 x2,房价为 h,那么

上面公式中,想是已知,theta 是未知,需要求解。上面的公式进一步处理 根据矩阵点乘:

如果我们已经推断出θ,那么,我们的真实值和推断值之间的误差ϵ也就得出了,用真实值减去推断值即可,换句话就是

假定我们的样本是独立的,也就是每家卖房子都是根据自己的情况来决定价格的,那么我们的误差就服从一个正态分布,并且μ=0(这是因为θ0的存在,总可以达到均值为0),方差为σ2.

(1)号公式就是似然函数,接下来我们就围绕着这个似然函数进行进一步分解。 因为ϵ(i)满足正态分布,那么

从(1)式得到

将3式带入2式进行推导

公式4不在包含ϵ(i),该公式的含义就是给定θ,根据 xi可以推算出y(i)的概率密度。

又因为是独立的样本,联合概率=各自概率的和,那么得出

(5)式两边取对数

需要θ取最大值,那么就需要

得到最小值,这就是我们的目标函数,也就是损失函数

(7)就是最小二乘公式的由来,接下来如何求解这个目标函数呢?使用梯度下降法,具体推导如下,markdown 编写太慢,还是直接手写来得快。

0 人点赞