参数估计
极大似然估计(MLE)
极大似然估计(Maxinum Likelihood Estimation):利用总体的分布密度或概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法.
模型已定,参数未知即利用已知样本的结果,去反推既定模型中的参数最可能的取值.
出现当前情形的概率为:
出现当前情形的概率为:
f({x_1},{x_2},...,{x_n}{rm{|}}theta {rm{) = }}f({x_1}|theta )f({x_2}|theta )...f({x_n}|theta ),θ未知
称其为似然函数L
令hat l = frac{1}{n}ln L(theta |{x_1},{x_2},...,{x_n})\
则 {hat theta _{MLE}} = arg mathop {max }limits_{theta in Theta } hat l
最大似然估计(LSE)
总体XX为连续型分布,其分布密度族为{f(x,θ),θ∈Θ}{f(x,θ),θ∈Θ},假设总体XX的一个独立同分布的样本为x1,x2,...,xnx1,x2,...,xn,其似然函数为:L(θ|x1,x2,...,xn)L(θ|x1,x2,...,xn).最大似然估计应在一切θθ中选取随机样本(X1,X2,...,XnX1,X2,...,Xn)落在点(x1,x2,...,xnx1,x2,...,xn)附近概率最大的θ^θ^作为θθ的估计值.
对于一元线性回归方程
假设{varepsilon _i}text{~}N(0,{sigma ^2})$ ,则有{y_i}text{~}N({beta _0},{beta _1}{x_i},{sigma ^2})
有偏估计和无偏估计
无偏估计(Unbiased Estimate):用样本来估计总体参数时的一种无偏推断,估计量的数学期望等于估计量的真实值E(θ^)=θE(θ^)=θ.换言之,在对某量进行估计时,针对不同的样本,估计结果对真实值来说有的偏大有的偏小,反复多次.”平均”来说,和真实值的偏差为0,反之即为有偏估计(Biased Estimate).无偏估计无系统性偏差,有偏估计有系统性偏差.
样本方程{S^2}是总体方差的无偏估计量.
显著性检验
t检验
检验因变量y与自变量x之间是否存在线性关系,即β1β1是否等于0,使用tt检验进行判断。
确定假设:我们搜集数据是为了找到不达标的证据,即原假设H0:β1=0H0:β1=0,备择假设H0:β1≠0H0:β1≠0
确定检验水平:采取常用的α=0.05α=0.05或者是更严格的α=0.01α=0.01
构造统计量:H0H0成立时:hat beta text{~}N(0,frac{{{sigma ^2}}}{{{L_{xx}}}}) ,构造tt统计量:t = frac{{hat beta }}{{sqrt {{partial ^2}/{L_{xx}}} }} = frac{{hat beta }}{{sqrt {frac{1}{{n - 2}}sum {{{({y_i} - {{hat y}_i})}^2}} } }}sqrt {{L_{xx}}}
得到p值:计算tt统计量,符合自由度n−2n−2的tt分布,双尾检测,查临界值表,找到pp值.
得到结论:p值若大于αα值,不能拒绝原假设,即通过本次采样得到的样本数据,并不能证明原假设H0H0不成立,即本次得到的回归系数β1β1无显著的统计意义,需要重新建模.
总离差平方和(Sum of Squares for Total)
残差平方和(Sum of Squares for Error)
回归平方和(Sum of Squares for Regression)
F检验
F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性.由平方和分解式可得到SSR越大,回归效果越好,据此构造F统计量。
相关系数显著性检验
相关系数由卡尔·皮尔逊的统计指标,描述了了变量之间线性相关程度的量,一般用字母r表示,有多种定义方式,一般指皮尔逊相关系数。
的取值范围[−1,1][−1,1],r>0表示正相关,r<0表示负相关,r = 0表示不相关。
在抽样验证前需要排除抽样误差。
确定检验水平:采取较为严格的α=0.01α=0.01
计算统计量:计算tt统计量,原假设H0H0成立,t = frac{{sqrt {n - 2r} }}{{sqrt {1 - {r^2}} }}
计算p值:先计算tt值,再根据tt值查表.
决定系数
通过平方和分解式SST=SSR SSE,SSR占的比重越大,线性回归效果越好.定义回归平方和占总离差平方和的比例为决定系数(Coefficient of Determination),也称确定系数,,记作{r^2} = frac{{SSR}}{{SST}} = frac{{sum {{{({{hat y}_i} - bar y)}^2}} }}{{sum {{{({y_i} - bar y)}^2}} }}
样本较小时,需要调整决定系数
决定系数较大,同样也不能肯定自变量与因变量之间的关系就是线性的,可能曲线拟合更好,特别当自变量取值范围较小时,决定系数通常较大,可以做模型失拟检验.
决定系数较小,如果样本量较小,则得到线性回归不显著的结果.如果样本量较大,则会得到线性回归显著;最后改进回归,儒增加自变量、尝试曲线回归拟合等
残差分析
真实值与回归拟合值的差,叫做残差
{e_i} = {y_i} - {hat y_i} 残差平方和:∑e2i=∑(yi−β^0−β^1xi)2∑e_i^2=∑(yi−β^0−β^1x_i)^2
误差:真实值与模型输出值的差:{varepsilon _i} = {y_i} - {beta _0} - {beta _1}{x_i}
残差:如上离差:真实值与模拟拟合值的期望的差,离差平方和为:SST
偏差:事实上的真实值与估计值的差bias = {y_T} - {{hat y}_i}
方差:模型估计值与模型估计期望的方差{mathop{rm var}} = sum {{{({{hat y}_i} - bar y)}^2}}
残差的期望:E({e_i}) = 0
残差的约束条件:
残差的方差:
其中h_{ii}称为杠杆值
标准化残差:ZR{E_i} = frac{{{e_i}}}{{hat sigma }} ,学生化残差:SR{E_i} = frac{{{e_i}}}{{sigma sqrt {1 - {h_{ii}}} }}