本章小结 一元线性回归(掌握) 回归方程及估计(经验)的回归方程(掌握) 参数的最小二乘估计一最小化残差平方和(掌握) 回归方程的拟合优度: 和估计标准误差(掌握) 回归模型的显著性检验(掌握) 回归方程总体的显著性检脸(线性关系检验,或F检验) 回归系数的显著性检验(回归系数检验,或t检验) 回归系数的区间估计(掌握) 利用回归方程进行估计和预测(理解) 点估计:个别值的,点估计、平均值的点估计 区间估计:平均值的置信区间估计、个别值的预测区间
相关和回归分析是用来度量数值型自变量和数值型因变量之间关系的分析方法。
相关分析
相关是考察两个变量是否存在共同变化的趋势 两个变量共同变化的趋势在统计中用共变异数(covariance)来表示,即变量A的取值从低到高变化时变量B是否也同样发生变化。
相关关系是指变量之间存在的不确定的数量关系。这种关系与函数关系最大的区别是一个变量的取值不能由另一个变量唯一确定。
线性相关关系的度量
相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。可以根据计算数据来源分为总体相关系数(rho )和样本相关系数(r )。线性相关系数的计算方法为:
线性相关系数也叫做Pearson相关系数。分子中
又叫做共变异数,通过对共变异数的标准化处理来得到r
相关系数的性质如下:
- 对称性
- 数值大小与x和y的原点及尺度无关
- 仅仅是线性关系的度量
- 不能作为是否存在因果关系的判断依据。
相关关系的显著性检验
r作为rho 的近似值,会受到抽样波动的影响,因此我们 一般认为r 是一个随机变量,因此有必要进行显著性检验。
r的抽样分布受到总体相关系数和样本量的影响,只有当rho 非常接近0且n 很大时,才能认为r 是接近正态分布的随机变量。
对r 的显著性检验主要依据R. A. Fisher提出的t检验方法:
- 提出假设
H0:β1=0
- 构造并计算检验统计量:
- 进行决策,如果|t|>t_{frac{alpha}{2}} ,则拒绝原假设,表明两个变量之间存在显著线性关系。
一元线性回归
相关分析的目的在于使用相关系数测量变量之间的关系强度,回归分析注重考察变量之间的数量关系。
回归分析解决的问题:
- 因变量与若干个自变量的数学关系式
- 对关系式的可信程度进行检验
- 对自变量对因变量影响的显著程度进行计算
- 度量预测或者估计的可靠程度
回归模型
一元线性回归模型中,y是x的线性函数再加上误差项
:
针对这一模型的主要假设:
- 线性关系假设:y与x具有线性关系
- 独立性:对于一个特定的x,它对应的y或者误差项是和其他x值所对应的y或者误差项是不相关的。
- 零均值:误差项是一个期望值为0的随机变量,这个假设意味着预测y的期望值
, 即假定模型的形式为一条直线
- 同方差:对所有的x值,误差项的方差sigma^2
都相等,这也是说预测值y的方差是sigma^2 。
- 正态性:观察值y服从正态分布,因此,误差项是一个服从正态分布的随机变量,即
回归方程
考虑到回归模型中varepsilon 均值为零,因此y的期望值
, 描述因变量y的期望值如何依赖x的方程就是回归方程(regression equation),一元线性回归方程的形式为:
实际应用过程中,总体回归参数beta_0 和beta_1 是未知的,必须利用样本数据进行估计,通过样本数据估计回归方程中的未知参数的得到的回归方程叫做估计的回归方程(estimated regression equation),一般写作:
其中两个参数为回归方程两个参数的估计量,一般采取最小二乘估计进行计算,这里不加证明地给出参数的估计量:
截距的估计量为:
可以证明,最小二乘法得到的估计量是总体参数的无偏有效一致估计量。
拟合优度度量
拟合优度(Goodness of Fit)是指回归直线和各观测点的接近程度,为说明直线拟合优度,可以计算判定系数或者估计标准误差。 拟合优度实质上说明的是回归模型在多大程度上解释了因变量取值的差异。
判定系数
与方差分析类似,将y取值的波动分解:
两边平方求和导出误差项:
上述式子也可以写作:
关于误差的自由度的问题这里做一个特殊说明,一般来说,统计量的自由度是样本容量和限制条件的差,这个可以用来解释SSE的自由度为什么是n-k-1,SST的自由度是n-1。除此以外,自由度也是值一个随机向量的自由的维数,也就是该向量能被完整描述的最少标准单位向量数,对于样本观察值
, 其实可以看成是k 1个维度的向量的线性组合,故
的自由度是k 1, 但是因为在计算SSR时要考虑
,故SSR损失了一个自由度,自由度为k。
接着定义回归直线的判定系数(coefficient of determination),记为
,用回归平方和占总平方和的比例表示:
越接近1,拟合程度越好。
一元线性回归中的相关系数r实际是
的平方根,正负取决于一次项的回归系数。
在实际运用过程中,我们发现可以通过增加解释变量的个数来增大判定系数,为了解决这个问题对判定系数进行适当修正:
begin{align*} R_{a}^2&=1-frac{SSE /(n-k-1)}{SST /(n-1)}\ &=1-(1-R^2)times frac{n-1}{n-k-1} end{align*}
估计标准误差
估计标准误差(standard error of estimate)就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根:
SSE的自由度是n-k-1,对于多元回归模型,回归方程中参数的估计值有k 1个(k个解释变量加一个截距),相当于给SSE增加了k 1个约束条件,因此自由度为n-k-1。 另外需要注意的是,
其实是回归方程中
的无偏估计量,反映的是y随机波动的大小。
显著性检验
拟合优度反映的是我们用建立的回归方程进行估计或者预测时的精度(回归模型多大程度上解释了因变量取值的差异),根据样本数据拟合回归方程时我们作出了一系列假设,这些假设是否成立则需要进行检验(样本数据是否能真实反应变量之间的关系) 回归分析的显著性检验主要包括线性关系检验和回归系数检验两部分内容。
线性关系检验
线性关系检验主要是检验自变量与因变量之间的线性关系是否显著,一般通过构造F统计量进行检验, 这里以一元线性回归为例进行说明:
- 提出假设:
- 构造F统计量:
- 根据F的值做出决策,这里进行简单说明:线性关系越强,随机误差和SSE就越小,即构造的F统计量会越大,越应该拒绝
,这也决定了我们的假设检验应该是一个右侧检验: 若 F>F_{alpha}>F ,则拒绝H_0 ,认为两个变量线性关系显著。
回归系数的检验
回归系数的检验某一自变量对因变量影响的显著程度,需要强调的是这样的检验只是对线性关系的检验,这里需要与前边总体线性关系区分开的是这里所说的检验是指因变量与某一个自变量之间的线性关系的检验,这两种检验方式的差异会在多元线性回归中看到明显区别。
估计回归方程中的回归系数是根据抽烟数据计算得到的,因此回归方程中的回归系数(
)可以视为一个随机变量,也都有自己的分布.
统计上可以证明,回归系数
服从正态分布,均值为
,标准差为:
其中
是误差项的标准差, 然后用
的估计量
代替未知的
可以得到
的标准差:
这样就可以构造回归系数
的t统计量:
接着可以提出回归系数的显著性检验为:
- 提出检验:
- 计算检验统计量t
- 做出决策:
则拒绝H_0 , 即x与y之间存在着显著的线性关系。
区间估计
根据
的分布情况,我们也可以得到它对应的区间估计:
使用回归方程对因变量进行估计和预测
这部分主要涉及的是对建立的回归模型对现实的解释能力,主要包括个别值预测和平均值预测,估计方法主要涉及点估计和置信区间估计,因为置信区间估计会涉及点估计取值,因此这里直接给出置信区间的估计。 个别值预测:
平均值预测:
对于同一个x, 平均值的点估计(记为
)和个别值的点估计是一样的,而两者的方差是不一样的,因此两者的区间估计是不同的。
两种值的点估计值都是
区间估计
对y的区间估计有两种类型:
- 对y的个别值进行估计得到的估计区间叫做预测区间(prediction interval)。
- 对y的平均值进行估计得到的估计区间叫做置信区间(confidence interval)。
预测区间估计
对于一个给定的
,对因变量y的个别值的估计区间为(
的置信水平下):
置信区间估计
对于一个给定的
,对因变量y的平均值的估计区间为(
的置信水平下):
通过计算结果可以发现,预测区间的宽度会比置信区间的宽度大。
残差分析*
残差分析是指对回归模型中的残差
的假设是否成立的检验方法之一。 **残差(residual)**是因变量的观测值
与预测值
之间的差值,用
表示。
残差图
绘制残差图是进行残差分析的一个重要方法,一般可以绘制关于x的残差图(以x为自变量,
为因变量)、关于
的残差图
正态性检验
正态性的检验可以通过对标准化残差的分析来完成**。标准化残差(standardized residual)**是残差除以它的标准差后得到的数值,也称为Pearson 残差或者半学生化残差,用
表示。
接着就是针对标准化残差进行的正态分布的检验
多元线性回归
多元线性回归模型与一元类似,只不过相比之下自变量更多,且自变量之间可能存在共线性。 对于多元回归模型来说,在解释回归系数
的含义时,一定要记得强调是在其他自变量的值不改变的情况下,
的变化会引起的预测值的变化。
多元线性回归模型
多元回归方程(multiple regression equation):
估计的多元回归方程
多元回归方程也通过最小二乘进行估计,利用样本值对参数进行估计得到估计的多元回归方程:
拟合优度
拟合优度检验与一元完全一致,这里不再赘述。
显著性检验
线性关系检验
检验因变量y与k个自变量之间的线性关系是否显著,也称为总体显著性检验: 提出假设:
begin{align*} H_0:beta_1=beta_1=dots=beta_k=0 \ H_1:beta_0,beta_1,dots=beta_ktext{至少有一个不等于0} end{align*}
计算检验统计量F:
作出统计决策:
回归系数检验
提出假设:
begin{align*} H_0:beta_i=0 \ H_1:beta_ine 0 end{align*}
计算检验统计量t:
其中:
作出统计决策:
多重共线性
回归模型中自变量个数大于1个时,可能存在两个或者两个以上的自变量彼此相关,这个时候称回归模型存在多重共线性。
多重共线性可能会使得因变量与特定自变量的线性关系不显著,甚至还有可能导致参数估计值有正负号的变化 多重共线性出现的原因有以下几种:
- 经济变量之间存在较为密切的关系
- 经济变量之间存在相同的趋势
- 模型中引入滞后变量容易产生多重共线性
如果出现下列情况,暗示存在多重共线性:
- 模型中各对自变量之间显著相关
- 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著
- 回归系数的正负号与预期的相反
- 借助构造的统计量容忍度(tolerance)与方差扩大因子(variance inflation factor,VIF)
某个自变量的容忍度等于1减去以该自变量作为因变量,对其它k一1个变量进行回归得到的判定系数。 计算公式:
容忍度越小,多重共线性越严重。 通常认为容忍度小于0.1时,存在严重的多重共线性。 方差扩大因子又叫做方差膨胀因子,等于容忍度的倒数,一般认为
大于2则存在多重共线性问题,VIF大于10则认为存在严重的多重共线性问题。
处理办法
多重共线性的处理办法
- 变量选择(将一个或多个相关的自变量从模型中别除,使保留的自变量尽可能不相关)
- 如果要在模型中保留所有的自变量,则应
- 避免根据t统计量对单个参数进行检验
- 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内
选择依据
- AIC准则:
k增大会导致
的值变大(自变量个数增加给模型带来的惩罚),SSE减小会使得
的值减小(自变量个数增加带来的残差平方和的减少)。
最终值的变化由两种趋势的相对关系决定,使用
进行变量选择的标准是:使得AIC达到最小的模型就是最优模型 2. BIC准则:
,因此相比来说BIC准则对变量个数的增加惩罚力度更大,选择标准一致。 3. 选择自变量的另一个原则是对统计量进行显著性检验:
- 若自变量的引入能显著降低
,那么该变量的引入是有必要的,否则没有必要引入,而对于引入自变量是否使得
显著减少,]]]则可以借助
统计量,以此来确定剔除/增加自变量
向前选择:
向后剔除:
逐步回归:
利用回归模型进行估计与预测
与一元类似
含有定性自变量的回归模型
在模型中引入定性自变量
- 定性变量通常能够以二元信息的形式呈现。
- 通常用0-1变量来为模型引入相关的定性信息,称之为虚拟变量(dummy variables)或指示变量(indicator variable)
- 若定性变量只有两个水平,则可将其定义为一个虚拟变量
- 若定性变量有k个水平,那么需要k-1个虚拟变量(k-1个变量都为0时表示取值为第k个水平)
回归模型中涉及虚拟自变量时,则称为虚拟自变量的回归。 这里给出一个简单的例子 为了研究考试成绩与性别的关系,从某大学获得样本容量为n的样本数据。这时建立回归模型时就需要定义一个虚拟变量x来表示性别,如果假定x=1表示男生,x=0表示女生: 回归方程:
上述回归方程取x=1时就表示男学生考试成绩的期望值;
注意:当指定虚拟变量0一1时
总是代表与虚拟变量值0所对应的那个分类变量水平的平均值
总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=
一个例子
注意含有虚拟变量时回归系数含义的解释方式