Linear Mixde Model, 简称LMM, 称之为线性混合模型。从名字也可以看出,这个模型和一般线性模型有着很深的渊源。
线性混合模型是在一般线性模型的基础上扩展而来,在回归公式中同时包含了以下两种效应
- fixed-effects, 固定效应
- random efffects,随机效应
其名称中的混合
一词正是来源于此。一元简单线性模型的公式如下
其中X
代表固定效应,ε
表示随机误差,而线性混合模型的公式如下
相比简单线性模型,多出了Z
这一项,这一项称之为随机效应。当然两种模型的本质并不是体现在回归公式中自变量的多少,而在于自变量的类别,在一般线性模型中,其自变量全部为固定效应自变量,而线性混合模型中,除了固定效应自变量外,还包含了随机效应自变量。
所以关键之处在于判定自变量的类别,如果一个自变量的所有类别在抽样的数据集中全部包含,则将该变量作为固定效应,比如性别,只要抽样的数据中同时包含了两种性别,就可以将性别作为固定效应自变量;如果一个自变量在抽样的数据集中的结果只是从总体中随机抽样的结果,那么需要作为随机效应自变量。简而言之,如果抽样数据集中的自变量可以包含该自变量的所有情况,则作为固定效应,如果只能代表总体的一部分,则作为随机效应。
在分析的时候,可以将自变量都作为固定效应自变量,然后用一般线性模型来进行处理,那么为何要引入随机效应自变量呢?
使用一般线性模型时,是需要满足以下3点假设的
- 正态性,因变量y符合正态分布
- 独立性,不同类别y的观察值之间相互独立,相关系数为零
- 方差齐性,不同类别y的方差相等
以性别这个分类变量为例,如果不同性别对应的因变量值有明显差异,也就说我们常说数据分层,那么就不满足上述条件了。此时如果坚持使用一般线性模型来拟合所有样本,其参数估计值不在具有最小方差线性无偏性,回归系数的标准误差会被低估,利用回归方程得到的估计值也会过高。
对于分层明显的数据,一种解决方案就是将不同的层分开处理,比如性别分层,那么就将不同性别的数据分开,每一类单独处理,但是这要求每一类包含的样本数据量要够多,而且分层因素的类别也不能太多,太多了处理起来也很麻烦。另外一个解决方案就是更换模型,使用线性混合模型。
一般线性模型有3个前提条件,而线性混合模型只保留了其中的第一点,即因变量要符合正态分布,对于独立性和方差齐性不做要求,所以适用范围更加广泛。
在线性混合模型中,随机效应变量Z
的参数向量Γ
服从均值为0,方差为G的正态分布,即Γ ~ N(0, G)
, 随机误差ε
服从均值为,方差为R的正态分布,即ε ~ N(0, R)
, 同时假定G和R没有相关性,即Cov(G, R) = 0, 此时因变量Y的方差可以表示为
Var(Y) = ZGZ R
在GCTA软件中,其核心就是线性混合模型,将所有SNP作为自变量,然后通过上述公式来估算SNP遗传力。
对于一般线性模型,可以通过最小二乘法或者最大似然法来估算其参数,对于线性混合模型,常用的参数估方法为约束性最大似然法
restricted maximum likelihood
简称REML, 对于如下的混合模型
其中y是已知的,表示因变量的观测值,β
是未知的,表示固定效应的参数向量,u
是未知的,表示随机效应的参数向量,对于该方程的参数估计,其实就是求解β
和u
的值,公式如下
对于固定效应β
, 其估计值为最佳线性无偏估计
best linear unbiased estimates(BLUE)
对于随机效应u
, 其估计值为最佳线性无偏预测
best linear unbiased predictors(BLUP)
线性混合模型只要求因变量服从正态分布,适用范围广,在遗传统计学中广泛使用。