计量笔记 | 简单线性回归

2021-03-05 10:08:44 浏览数 (1)

1. 简单线性回归

总体回归函数(PRF)与样本回归函数(SRF)

可使用蒙特卡洛法进行模拟,所谓“蒙特卡罗法”(Monte Carlo Methods,MC),是通过计算机模拟,从总体抽取大量随机样本的计算方法。

代码语言:javascript复制
* PRF 和 SRF:蒙特卡罗模拟
clear
set obs 30
set seed 10101

gen x = rnormal(3, 4)
gen e = rnormal(0, 9)
gen y = 1*x   e //Data Generation Process
reg y x

tw function PRF = 1 2*x, range(-5 15) || ///
scatter y x || lfit y x, lp(dash)

计量经济学的主要任务之一就是通过数据

{x_i,y_i}_{i=1}^n

来获取关于总体参数

(alpha, beta)

的信息。

1.1 OLS 估计量的推导

目标:残差平方和最小

min_{hat alpha, hat beta} sum_{i=1}^n e_{i}^2 = sum_{i=1}^n (y_i-hat alpha -hat beta x_i)^2

此最小化问题的一阶条件为:

begin{cases} frac{delta}{delta hat alpha} sum_{i=1}^n e_i^2 = -2sum_{i=1}^n (y_i - hat alpha - hat beta x_i) = 0 \ frac{delta}{delta hat beta} sum_{i=1}^n e_i^2 = -2 sum_{i=1}^n (y_i - hat alpha - hat beta x_i) x_i = 0 end{cases}

消去方程左边的

-2

,可得:

begin{cases} sum_{i=1}^n (y_i - hat alpha - hat beta x_i) = 0 \ sum_{i=1}^n (y_i - hat alpha - hat beta x_i)x_i = 0 end{cases}

对上式各项分别求和,移项可得:

begin{cases} n hat alpha hat beta sum_{i=1}^n x_i = sum_{i=1}^n y_i \ hat alphasum_{i=1}^n x_i hat beta sum_{i=1}^n x_i^2 = sum_{i=1}^n x_iy_i end{cases}

上式为“正规方程组”。记

bar y = frac{1}{n}sum_{i=1}^n y_i, bar x = frac{1}{n} sum_{i=1}^n x_i

,则:

hat alpha = bar y - hat beta bar x

将上式带入可得:

(bar y - hat betabar x)sum_{i=1}^n x_i hat beta sum_{i=1}^n x_i^2 = sum_{i=1}^n x_iy_i

合并同类项,移项可得:

hat beta (sum_{i=1}^n x_i^2 - bar x sum_{i=1}^n x_i) = sum_{i=1}^n x_iy_i - bar y sum_{i=1}^n x_i

使用关系式

sum_{i=1}^n x_i = n bar x

,求解

hat beta

hat beta = frac{sum_{i=1}^n x_iy_i - n bar{xy}}{sum_{i=1}^n x_i^2-n bar x^2}

更直观的写为离差形式:

hat beta = frac{sum_{i=1}^n(x_i-bar x)(y_i-bar y)}{sum_{i=1}^n(x_i-bar x )^2}

最后,求得:

hat alpha = bar y - hat beta bar x
hat beta = frac{sum_{i=1}^n(x_i-bar x)(y_i-bar y)}{sum_{i=1}^n(x_i-bar x )^2}

1.2 平方和分解公式

(图片来源:古扎拉蒂《经济计量学精要》(第四版)p.54)

由上图可知,

Y

的观测值围绕其均值(total variation)可分解为两部分,一部分来自回归线(ESS),另一部分来自随机扰动(RSS)。


【注释】TSS、ESS 和 RSS 的叫法在不同的教材会有区别

在古扎拉蒂的教材中,定义总平方和(TSS)、解释平方和(ESS)、残差平方和(RSS)。

在伍德里奇的教材中,定义总平方和(total sum of squares, SST)、解释平方和(explained sum of squares, SSE) 和残差平方和(residual sum of squares,SSR)。

在 Stata 汇报的结果中:解释平方和(SS of Model)、残差平方和(SS of Residual)和 总平方和(SS of Total)。


平方和分解公式:

underbrace{sum_{i=1}^n (y_i-bar y)^2}_{TSS}= underbrace{sum_{i=1}^n(hat y_i-bar y)^2}_{ESS} underbrace{sum_{i=1}^n e_{i}^2}_{RSS}

【证明】 将离差

(y_i - bar y)

写为

(y_i - hat y_i hat y_i - bar y)

,则可将 TSS 写为:

sum_{i=1}^n (y_i - bar y)^2 = sum_{i=1}^n (y_i - hat y_i hat y_i - bar y)^2 = sum_{i=1}^n (e_i hat y_i - bar y)^2 \ = sum_{i=1}^n e_i^2 sum_{i=1}^n(hat y_i - bar y)^2 2 color{red}{sum_{i=1}^ne_i(hat y_i - bar y)}

只需证明交叉项

sum_{i=1}^ne_i(hat y_i - bar y)=0

即可,而这由 OLS 的正交性所保证:

sum_{i=1}^n e_i(hat y_i-bar y) = sum_{i=1}^n e_i hat y_i - sum_{i=1}^ne_i = 0 - 0 = 0

如果没有常数项,则无法保证

sum_{i=1}^n e_i = 0

,故平方和分解公式不成立。此时,使用非中心

R^2

(uncentered

R^2

)。


1.3 拟合优度

0 leq R^2 equiv frac{sum_{i=1}^n(hat y_i - bar y)^2}{sum_{i=1}^n (y_i-bar y)^2} = 1 - frac{sum_{i=1}^ne_{i}^2}{sum_{i=1}^n (y_i-bar y)^2} leq 1

有常数项的情况下,拟合优度等于被解释变量

y_i

与拟合值

hat y_i

之间相关系数的平方,即

R^2 = [Corr(y_i,hat y_i)]^2

,故记为

R^2

R^2

只反映了拟合程度的好坏,评估回归方程是否显著应使用 F 检验。

1.4 无常数项的回归

无常数项的一元线性回归模型可以写为:

y_i = beta x_i epsilon_i quad(i=1, ..., n)

依然进行 OLS 估计,最小化残差平方和为:

min_{hat beta} sum_{i=1}^n e_i^2 = sum_{i=1}^n (y_i - hat beta x_i)^2

一阶条件为:

frac{d}{d hat beta} sum_{i=1}^n e_i^2 = -2 sum_{i=1}^n (y_i - hat beta x_i) x_i = 0

消去方程左边

-2

,可得:

sum_{i=1}^n (y_i - hat beta x_i) x_i = 0

求解

hat beta

可得:

hat beta = frac{sum_{i=1}^n x_iy_i}{sum_{i=1}^n x_i^2}

如果回归模型无常数项,则平方和分解公式不成立,不宜使用

R^2

来度量拟合优度。

e_i = y_i - hat beta x_i

,则正规方程可写为:

sum_{i=1}^n x_ie_i = 0

记拟合值为

hat y_i equiv hat beta x_i

,则容易证明残差仍与拟合值正交:

sum_{i=1}^n hat y_i e_i = sum_{i=1}^n hat beta x_ie_i = hat beta sum_{i=1} x_ie_i= hat beta cdot0 = 0

仍可利用 OLS 的正交性将

sum_{i=1}^n y_i^2

分解为:

sum_{i=1} y_i^2 = sum_{i=1}^n (hat y_i e_i)^2 = sum_{i=1}^n hat y_i^2 2underbrace{sum_{i=1}^n hat y_ie_i}_{=0} sum_{i=1}^n e_i^2 = sum_{i=1}^n hat y_i^2 sum_{i=1}^n e_i^2
sum_{i=1}^n hat y_i^2

为可由模型解释的部分,而

sum_{i=1}^n e_i^2

为模型不可解释的部分。

定义非中心

R^2

R_{uc}^2 = frac{sum_{i=1}^n hat y_i^2}{sum_{i=1}^n y_i^2}

如果无常数项,Stata 汇报的

R^2

正是

R_{uc}^2

1.5 Stata 命令及实例

1.5.1 简单线性回归的 Stata 实例
代码语言:javascript复制
use ${d}/grilic.dta, clear
/*
数据说明:此数据集包括 758 位美国年轻男子的教育投资回报率数据
*/
reg lnw s
reg lnw s, noc // 无常数项回归
1.5.2 PRF 与 SRF: 蒙特卡洛法
代码语言:javascript复制
/*
PRF: y_i = 1   2x_i   epsilon_i quad (i=1, ..., 30)
解释变量:$x_i ~ N(3, 2^2)$,扰动项 $epsilon_i ~ N(0,3^2)$,样本容量为 30 。
*/

clear
set obs 30
set seed 10101

gen x = rnormal(3, 4)
gen e = rnormal(0, 9)
gen y = 1*x   e
reg y x

tw function PRF = 1 2*x, range(-5 15) || ///
scatter y x || lfit y x, lp(dash)

参考资料

  1. 陈强, 2015. 计量经济学及 Stata 应用[M]. 高等教育出版社.
  2. 古扎拉蒂, 波特, 2010. 经济计量学精要[M]. 机械工业出版社.
  3. 杰弗里·M·伍德里奇, 2015. 计量经济学导论(第五版)[M]. 北京: 中国人民大学出版社.

0 人点赞