回归分析与方差分析:数理统计的基石

2022-05-05 13:10:58 浏览数 (1)

方差分析针对因子型解释变量(也即分组

回归分析(regressionanalysis)是统计学的核心问题,是一种非对称相关分析。回归分析利用实验获得的数据构建解释变量对响应变量的线性模型(linearmodel,LM),当利用这个解释模型来预测未知数据时为预测模型。回归分析按照解释变量(预测变量)的多少,可分为一元回归分析多元回归分析;按照响应变量的多少,可分为简单回归分析多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析非线性回归分析

在回归分析中,最根本也是最常用的分析方法是普通最小二乘法(ordinaryleast squares,OLS)回归,其预测变量X与响应变量Y的拟合模型如下所示:

其中yi为Y的拟合值,xip为预测变量Xp的观察值(也即有p个预测变量),βp为回归模型的参数(预测变量的系数和截距),基于最大似然法的原理,我们采用最小二乘估算法(least squares estimate)估计最佳的回归系数βi,来使得响应变量的残差(观察值与拟合值的差值)平方和最小,也即使预测值最接近观察值,如下所示:

上式也被称为损失函数,OLS回归模型需要满足的条件如下:

⑴正态性,对于固定的自变量值,因变量成正态分布;

⑵独立性,因变量的值yi之间是独立的;

⑶线性,因变量与自变量之间为线性相关;

⑷同方差性,因变量的方差不随自变量的水平不同而变化,这与独立性是类似的,可以通过数据标准化来实现

一般来说,OLS回归不受预测变量量纲的影响,但是若想比较不同自变量的回归系数βi(也即比较哪一个解释变量对响应变量变化范围影响较大,例如约束排序),则需要首先进行z-score标准化等去除量纲影响。此外,有些环境因子的影响可能不是线性的,可以通过指数、平方根转化将其变为线性影响。

因为对于固定的自变量值,因变量成正态分布,因此回归模型的参数βi也近似正态分布,可以使用t检验来检验其显著性,假设βi均值为0也即模型不成立,如果p值小于0.05说明系数均值不为0。为了衡量回归模型的好坏,我们构建统计量R2=U/St=(St-Q)/St,其中U为回归平方和(因变量拟合值的方差),Q为残差平方和,不难想象若是回归模型显著,那么Q接近于0,R接近于1。R称为复相关系数,当只有一个解释变量时,R即为相关系数r。R2实际上代表了解释变量所解释的因变量方差占总方差的比例,也即方差贡献率,在3.3.2.4VPA分析中就是使用了这一概念来衡量不同解释变量的方差贡献率。对于回归模型总体的检验,我么构建如下统计量:

其中m为解释变量的个数,n为每个变量观察值的个数(一般认为在实验设计时n至少为m的5倍,最起码n-m-1是要大于0的),如果回归模型显著,那么U>>Q,上面统计量服从F分布,使用F检验来进行分析。

在R中拟合线性回归模型最常用的是lm()函数,其使用方法如下所示:

代码语言:javascript复制
lm(formula, data=data.frame)

函数中表达式(formula)符号及书写方法如下所示:

常用的回归模型结果提取及分析函数如下所示:

0 人点赞