2020-09-08 15:26:09
浏览数 (1)
目录
- 线性回归内容概览
- 高斯分布&最大似然&最小二乘的前世今生
- 单变量的情形
- 多个变量的线性回归的情形
- 使用极大似然估计解释最小二乘
- 线性回归θ求解过程
- 最小二乘意义下的参数最优解
- 线性回归的复杂度惩罚因子(正则化)
基本关于计算广告的每个模块都开始进行了一些记录,今天这个是关于计算广告算法的第一篇,也是从最基础的回归开始,逐渐加深,渗入到广告算法的各个模块中去,形成只关于广告的算法集合。也欢迎大家一起关注交流!
那么,下面先开始~
线性回归内容概览
1.高斯分布
2.最大似然估计MLE(maximum likelihood estimation)
3.最小二乘法
高斯分布&最大似然&最小二乘的前世今生
单变量的情形
的形式去拟合所给定的散点
多个变量的线性回归的情形
这里给出两个变量的情形
解析式:
向量式:
这里要注意的是:
是已知,而
是未知的参数,是关于
的函数
使用极大似然估计解释最小二乘
i : 第 i 个样本房屋的实际的售价
: 预测值和实际值的一个差值
: 要求的未知数参数
那么,假定这里的所有的样本是独立的,而且样本都服从的是同样的分布。即:假设这里所有的样本服从独立同分布(IID:indenpendently and identically distributed), 因此,这里
是独立同分布的。那么,假设误差都服从均值为0,方差为
的高斯分布
此时,由于
服从高斯分布。同时,均值为0,方差为
。即:
求对数似然:
求最大似然估计的的参数
。即:求
的最大值,那么,也就是求下里面式子的最小值
得到由似然函数推出的最小二乘的解析式:
那么, 在这里要理解“高斯分布”和“最小二乘法”的本质,以及他们的推理
线性回归θ求解过程
将M个N维样本组成矩阵
:
的每一行对应一个样本,共M个样本(measurements)
的每一列对应样本的一个维度,共N维(regressors)
还有额外的一些常数项,全部为1
最小二乘法损失函数解析求驻点
参数解析解:
最小二乘意义下的参数最优解
参数解析式:
若
不可逆或者在模型训练中防止过拟合,增加
扰动
“简便”记忆:
关于增加
扰动的说明
半正定:对于任意的非零向量
所以,对于任意的实数
,
正定,从而可逆。保证回归公式有一定的意义。
线性回归的复杂度惩罚因子(正则化)
线性回归的目标函数:
将目标函数增加L2正则化项:
本质即为假定参数为
服从高斯分布
关于正则化后面呢还会有专题进行详解~
作者:Johngo
配图:Pexels