所谓广义线性模型,顾名思义就是一般狭义线性模型的推广,那我们先看看我们一般的狭义线性模型,这在第十讲也说过可以参看http://www.ppvke.com/Blog/archives/30010,我们经常说的线性回归是OLS线性模型.这种模型的拟合方法是将实际观测值与理论预测值的误差平方和使之最小化,从而推导出线性模型的参数,即最小二乘法.而广义线性模型是通过极大似然估计法来估计参数的,所谓极大似然估计,就是将观测值所发生的概率连乘起来,得到似然函数,然后求似然函数的极大值,来推导出线性模型的参数,其中原理就是,既然一次实验某个结果发生了,那么我们可以认为,这个结果在这次实验中发生的概率是比较大的,那么,这次结果发生的概率是与模型的参数有关的,只要求出最大概率相应的参数自然就确定了,这里假设每个观测之间的相互独立的,才能用连乘的方法将每个观测的概率密度连乘起来。
其实在OLS回归中,我们也可以用极大似然估计发方法来估计参数,我们可以发现其结果和最小二乘法的结果是相同的.而在广义模型中我们使用极大似然估计方法.另外,一般的OLS线性模型是有前提假设的,这在前面的章节中有讲到,参见http://www.ppvke.com/Blog/archives/30346,前面讲到的是使用置换法和自助法来解决前提假设不满足的情况,今天我们主要解决一下两个问题:
1.当结果变量也就是因变量是类别型的,是或否,0或1,那么它肯定是不满足正态假设的,这个时候我们使用logistics回归
2.当结果变量为记数型的,也就是非负整数,肯定的离散的,这也不满足正太假设,这个时候我们使用泊松回归.
★
简介与原理:
1.logistics回归就是将结果变量做了一个转换,我们可以理解为 将y转换成f(y),而这个f(y)所代表的含义就是1类结果的优势比的对数.
2.泊松回归是假设Y服从泊松分布,知道泊松分布的就可以知道泊松分布的一些特性,参数λ为分布的均值和方差,将lnλ作为结果变量去拟合模型.其代表的含义为,事件发生次数的均值的对数.
★
模型拟合:
我们先看看数据情况,如下图,数据集中的几个字段,affairs出轨次数 ,gender性别, age年龄, yearsmarried婚龄, children是否有小孩, religiousness宗教信仰评分 ,educationj教育程度, occupation职业评分, rating婚姻自我评价
我们可以看到出轨次数从0到12次都有,这时,我们可以发现,结果变量是记数型的,这时我们可以使用泊松回归,当然前提是服从泊松回归的,另外,有时我们并不关心次数,只关心是否出轨,这时我们将数据进行变换,变为出轨与否,这样结果变量就服从了逻辑回归的要求,我们进行了逻辑回归拟合,.
我们可以看到模型非常显著,参数由于是岁数形式的,观察不直接,我们便进行了指数化,这时可以看到随着婚龄的增加出轨优势比会乘以1.1,即出轨会增加,果然还是躲不过7年之痒啊,这时比较符合实际情况的,
另外我们用泊松回归进行了拟合,可以观查到结果与逻辑回归类似.
★
模型的诊断:
在拟合模型时会出现这样一个情况,由于我们对y进行了变换,逻辑回归中,y是二值的我们假设服从二项分布,泊松回归中我们假设y服从泊松分布,当y的实际方差大于分布的期望方差时,这会导致模型的不精确,我们称之为过度离势.
检测:用残差变差即Residual deviance: 615.36 除以残差自由度on 596 degrees of freedom得到的数Ф若远大于1则认为存在过度离势.
检验:我们将分布改为类分布,二项分布family=binomial( )改为family=quasibinomial( ) ,泊松分布family=poisson( )改为family=quasipoisson( ) 然后再去拟合模型.得到的新模型与旧模型进行比较.这时可以使用假设检验的方法,假设
Ф=1,使用卡方检验.得到P值做检验
未
完
待
续