回归分析(regressionanalysis)是统计学的核心问题,是一种非对称相关分析。回归分析利用实验获得的数据构建解释变量对响应变量的线性模型(linearmodel,LM),当利用这个解释模型来预测未知数据时为预测模型。回归分析按照解释变量(预测变量)的多少,可分为一元回归分析与多元回归分析;按照响应变量的多少,可分为简单回归分析与多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析与非线性回归分析。
在回归分析中,最根本也是最常用的分析方法是普通最小二乘法(ordinaryleast squares,OLS)回归,其预测变量X与响应变量Y的拟合模型如下所示:
其中yi为Y的拟合值,xip为预测变量Xp的观察值(也即有p个预测变量),βp为回归模型的参数(预测变量的系数和截距),基于最大似然法的原理,我们采用最小二乘估算法(least squares estimate)估计最佳的回归系数βi,来使得响应变量的残差(观察值与拟合值的差值)平方和最小,也即使预测值最接近观察值,如下所示:
上式也被称为损失函数,OLS回归模型需要满足的条件如下:
⑴正态性,对于固定的自变量值,因变量成正态分布;
⑵独立性,因变量的值yi之间是独立的;
⑶线性,因变量与自变量之间为线性相关;
⑷同方差性,因变量的方差不随自变量的水平不同而变化,这与独立性是类似的,可以通过数据标准化来实现。
一般来说,OLS回归不受预测变量量纲的影响,但是若想比较不同自变量的回归系数βi(也即比较哪一个解释变量对响应变量变化范围影响较大,例如约束排序),则需要首先进行z-score标准化等去除量纲影响。此外,有些环境因子的影响可能不是线性的,可以通过指数、平方根转化将其变为线性影响。
因为对于固定的自变量值,因变量成正态分布,因此回归模型的参数βi也近似正态分布,可以使用t检验来检验其显著性,假设βi均值为0也即模型不成立,如果p值小于0.05说明系数均值不为0。为了衡量回归模型的好坏,我们构建统计量R2=U/St=(St-Q)/St,其中U为回归平方和(因变量拟合值的方差),Q为残差平方和,不难想象若是回归模型显著,那么Q接近于0,R接近于1。R称为复相关系数,当只有一个解释变量时,R即为相关系数r。R2实际上代表了解释变量所解释的因变量方差占总方差的比例,也即方差贡献率,在3.3.2.4VPA分析中就是使用了这一概念来衡量不同解释变量的方差贡献率。对于回归模型总体的检验,我么构建如下统计量:
其中m为解释变量的个数,n为每个变量观察值的个数(一般认为在实验设计时n至少为m的5倍,最起码n-m-1是要大于0的),如果回归模型显著,那么U>>Q,上面统计量服从F分布,使用F检验来进行分析。
在R中拟合线性回归模型最常用的是lm()函数,其使用方法如下所示:
代码语言:javascript复制lm(formula, data=data.frame)
函数中表达式(formula)符号及书写方法如下所示:
常用的回归模型结果提取及分析函数如下所示: