1.1 广告算法专题 -线性回归

2020-09-08 15:26:09 浏览数 (1)

目录

  • 线性回归内容概览
  • 高斯分布&最大似然&最小二乘的前世今生
    • 单变量的情形
    • 多个变量的线性回归的情形
    • 使用极大似然估计解释最小二乘
  • 线性回归θ求解过程
    • 最小二乘意义下的参数最优解
    • 线性回归的复杂度惩罚因子(正则化)

基本关于计算广告的每个模块都开始进行了一些记录,今天这个是关于计算广告算法的第一篇,也是从最基础的回归开始,逐渐加深,渗入到广告算法的各个模块中去,形成只关于广告的算法集合。也欢迎大家一起关注交流!

那么,下面先开始~

线性回归内容概览

1.高斯分布 2.最大似然估计MLE(maximum likelihood estimation) 3.最小二乘法

高斯分布&最大似然&最小二乘的前世今生

单变量的情形
fbox{ y = ax b }

的形式去拟合所给定的散点

多个变量的线性回归的情形

这里给出两个变量的情形

解析式

h_theta(x) = theta_0 theta_1x_1 theta_2x_2

向量式

h_theta(x) =sum_{i=0}^{n} theta_ix_i = theta^Tx

这里要注意的是:

X

是已知,而

theta

是未知的参数,是关于

theta

的函数

f(theta)
使用极大似然估计解释最小二乘

i : 第 i 个样本房屋的实际的售价

epsilon

: 预测值和实际值的一个差值

theta

: 要求的未知数参数

y^{(i)} = theta^Tx^{(i)} epsilon^{(i)}

那么,假定这里的所有的样本是独立的,而且样本都服从的是同样的分布。即:假设这里所有的样本服从独立同分布(IID:indenpendently and identically distributed), 因此,这里

epsilon^{(i)}(1 le i le m)

是独立同分布的。那么,假设误差都服从均值为0,方差为

sigma^2

的高斯分布

begin{aligned} f(x) = frac{1}{sqrt{2pi}sigma} e^{frac{{(x-mu)^2}}{2sigma^2}} ,quad -infty < x < infty \[2ex] end{aligned}

此时,由于

epsilon^{(i)}

服从高斯分布。同时,均值为0,方差为

sigma^2

。即:

begin{aligned} p(epsilon^{(i)}) & = frac{1}{sqrt{2pi}sigma}e^{frac{(epsilon^{(i)})^2}{2sigma^2}} \[2ex]& Downarrow \p(y^{(i)} | x^{(i)};theta) & = frac{1}{sqrt{2pi}sigma}e^{-frac{(y^{(i)} - theta^Tx^{(i)})^2}{2sigma^2}} \[2ex] L(theta) & = prod_{i=1}^{m} p(y^{(i)} | x^{(i)};theta) \[2ex] & = prod_{i=1}^{m} frac{1}{sqrt{2pi}sigma}e^{-frac{(y^{(i)} - theta^Tx^{(i)})^2}{2sigma^2}} \[2ex] end{aligned}

求对数似然:

begin{aligned} {color{red}{maxtext{ }arg}} text{ }l(theta) & = ln text{ } L(theta) \[2ex] & = ln text{ } prod_{i=1}^{m} frac{1}{sqrt{2pi}sigma}e^{-frac{(y^{(i)} - theta^Tx^{(i)})^2}{2sigma^2}} \[2ex] & = sum_{i=1}^{m} ln text{ } frac{1}{sqrt{2pi}sigma}e^{-frac{(y^{(i)} - theta^Tx^{(i)})^2}{2sigma^2}} \[2ex] & = ln frac{m}{sqrt{2pi}} - frac{1}{2}frac{1}{sigma^2} cdot sum_{i=1}^{m}(y^{(i)} - theta^Tx{(i)})^2 \[2ex] end{aligned}

求最大似然估计的的参数

theta

。即:求

l(theta)

的最大值,那么,也就是求下里面式子的最小值

begin{aligned} ln frac{m}{sqrt{2pi}} - frac{1}{2}frac{1}{sigma^2} cdot sum_{i=1}^{m}(y^{(i)} - theta^Tx{(i)})^2 \[2ex] end{aligned}

得到由似然函数推出的最小二乘的解析式:

{color{red} {mintext{ }arg}} text{ } {J(theta) = frac{1}{2}sum_{i=1}^{m}(h_theta(x^{(i)}) - y^{(i)})^2}

那么, 在这里要理解“高斯分布”和“最小二乘法”的本质,以及他们的推理

线性回归θ求解过程

将M个N维样本组成矩阵

mathbf{X}

:

mathbf{X}

的每一行对应一个样本,共M个样本(measurements)

mathbf{X}

的每一列对应样本的一个维度,共N维(regressors) 还有额外的一些常数项,全部为1

最小二乘法损失函数解析求驻点

begin{aligned} text{目标函数: } text{ }J(theta) & = frac{1}{2}sum_{i=1}^{m}(h_theta(x^{(i)} - y^{(i)}))^2 \[2ex] & = frac{1}{2}(Xtheta - y)^T(Xtheta - y)\[2ex]text{ 梯度 } text{ }nabla_theta J(theta) & = nabla_theta [frac{1}{2}(Xtheta - y)^T(Xtheta - y)] \[2ex] & = nabla_theta [frac{1}{2}(X^Ttheta^T - y^T)(Xtheta - y)] \[2ex] & = nabla_theta [frac{1}{2}(theta^TX^TXtheta-theta^TX^Ty-y^TXtheta y^Ty)] \[2ex] & = frac{1}{2} [2X^TXtheta-X^Ty-(y^TX)T] \[2ex] & = X^TXtheta - X^Ty implies text{求驻点} \[2ex] end{aligned}

参数解析解:

begin{aligned} theta = (X^TX)^{-1}X^Ty \[3ex] end{aligned}
最小二乘意义下的参数最优解

参数解析式:

theta = (X^TX)^{-1}X^Ty

X^TX

不可逆或者在模型训练中防止过拟合,增加

lambda

扰动

theta = (X^TX lambda I)^{-1}X^Ty

“简便”记忆:

begin{aligned} Xtheta = y & Rightarrow X^TXtheta = X^Ty \[2ex] & Rightarrow theta = (X^TX)^{-1}X^Ty \[2ex] end{aligned}

关于增加

lambda

扰动的说明

X^TX

半正定:对于任意的非零向量

mu
mu X^TX mu = (X mu)^TX mu text{ }frac{text{令}nu=X mu}{underrightarrow{quadquadquadquadquad}} text{ } nu^Tnu ge 0

所以,对于任意的实数

lambda > 0

,

X^TX lambda I

正定,从而可逆。保证回归公式有一定的意义。

theta = (X^TX lambda I)^{-1}X^Ty
线性回归的复杂度惩罚因子(正则化)

线性回归的目标函数:

J(overrightarrow theta) = frac{1}{2}sum_{i=1}^{m}(h_{overrightarrow theta}(x^{(i)}) - y^{(i)})^2

将目标函数增加L2正则化项:

J(overrightarrow theta) = frac{1}{2}sum_{i=1}^{m}(h_{overrightarrow theta}(x^{(i)}) - y^{(i)})^2 lambda sum_{j=1}^n theta_j^2

本质即为假定参数为

theta

服从高斯分布

关于正则化后面呢还会有专题进行详解~

作者:Johngo

配图:Pexels

0 人点赞