数学建模:方差分析模型
1.方差分析模型引入
考虑的模型,它的自变量是只能取0,1两个值的示例变量。这种变量往往比较两个多个因素的某种效益存在与否。比如考试及格为0,不及格为1.
方差分析的实质:假设检验问题
一个复杂的事物,其中往往有许多因素互相制约又互相依存。
方差分析的目的是通过数据分析找出对该事物有显著影响的因素, 各因素之间的交互作用,以及显著影响因素的最佳水平等。
方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来 源的部分离差平方和,这是一个很重要的思想。
1.2 方差分析模型需要满足的条件
要求所考虑样本满足的条件
① 独立性:各组数据相互独立、互不相关
② 正态性:对于偏态分布的变量通过对数、倒数、平方根变化等方法,变为正态分布或者近似正态分布再来进行方差分析
③ 方差齐性
1.3 方差分析的主要用途
使用场景:
- 制造商有两种不同的方法来制造灯泡。 他们想知道一个过程是否比另一个好。
- 一组患者正在尝试三种不同的疗法:咨询、药物治疗和生物反馈。你想知道哪一种疗法是否比其他的更好。
方差分析主要用途:
①均值差别的显著性检验
②分离各有关因素并估计其对总变异的作用
③分析因素间的交互作用
④方差齐性检验
1.4 例子
例1:比较三种小麦品种的优劣,选六块面积相等,土质肥沃程度一样的田地,每种小麦播种在 其中的两块田内,给予完全相同的田间管理。问 每块田小麦的产量?
用 y i j y_{ij} yij表示第 i i i种小麦的第 j j j块田的产量。对 y i j y_{ij} yij作如下分析: y i j = μ α i e i j y_{ij} = mu alpha_i e_{ij}\ yij=μ αi eij μ mu μ:总均值
α i alpha_i αi:第i种小麦品种的效益
e i j e_{ij} eij:是随机误差,表示所有其他未知控制因素 以及各种误差的总效应。 1 号 小 麦 2 块 田 地 产 量 : { y 11 = μ α 1 e 11 y 12 = μ α 1 e 12 2 号 小 麦 2 块 田 地 产 量 : { y 21 = μ α 2 e 21 y 22 = μ α 2 e 22 1 号 小 麦 2 块 田 地 产 量 : { y 31 = μ α 3 e 31 y 22 = μ α 3 e 32 1号小麦2块田地产量:begin{cases} y_{11} = mu alpha_1 e_{11}\ y_{12} = mu alpha_1 e_{12}\ end{cases}\ 2号小麦2块田地产量:begin{cases} y_{21} = mu alpha_2 e_{21}\ y_{22} = mu alpha_2 e_{22}\ end{cases}\ 1号小麦2块田地产量:begin{cases} y_{31} = mu alpha_3 e_{31}\ y_{22} = mu alpha_3 e_{32}\ end{cases} 1号小麦2块田地产量:{ y11=μ α1 e11y12=μ α1 e122号小麦2块田地产量:{ y21=μ α2 e21y22=μ α2 e221号小麦2块田地产量:{ y31=μ α3 e31y22=μ α3 e32
例2:Y:药效度量指标比较三种药治疗某种疾病的效果。
假设每种药各有n个人服用, 采用双盲方法:病人不知道自己服用哪种药;医生也不知道哪个病人服用哪种药 y i j y_{ij} yij为服用第i种药的 第j个病人的药效测量值 y i j = μ α i e i j i = 1 , 2 , 3 , j = 1 , . . . , n y_{ij} = mu alpha_i e_{ij}qquad i = 1,2,3,j=1,…,n\ yij=μ αi eiji=1,2,3,j=1,...,n μ mu μ:总平均
α i alpha_i αi:表示第 i i i种药的效应
e i j e_{ij} eij:表示随机误差
模型: [ y 11 ⋮ y 1 n y 21 ⋮ y 2 n y 31 ⋮ y 3 n ] = [ 1 1 0 0 ⋮ ⋮ ⋮ ⋮ 1 1 0 0 1 0 1 0 ⋮ ⋮ ⋮ ⋮ 1 0 1 0 1 0 0 1 ⋮ ⋮ ⋮ ⋮ 1 0 0 1 ] [ μ α 1 α 2 α 2 ] [ e 11 ⋮ e 1 n e 21 ⋮ e 2 n e 31 ⋮ e 3 n ] begin{bmatrix} y_{11}\ vdots\ y_{1n}\ y_{21}\ vdots\ y_{2n}\ y_{31}\ vdots\ y_{3n} end{bmatrix}= begin{bmatrix} 1&1&0&0\ vdots&vdots&vdots&vdots\ 1&1&0&0\ 1&0&1&0\ vdots&vdots&vdots&vdots\ 1&0&1&0\ 1&0&0&1\ vdots&vdots&vdots&vdots\ 1&0&0&1 end{bmatrix}begin{bmatrix}mu\alpha_1\alpha_2\alpha_2end{bmatrix} begin{bmatrix} e_{11}\ vdots\ e_{1n}\ e_{21}\ vdots\ e_{2n}\ e_{31}\ vdots\ e_{3n} end{bmatrix} ⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡y11⋮y1ny21⋮y2ny31⋮y3n⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋮11⋮11⋮11⋮10⋮00⋮00⋮01⋮10⋮00⋮00⋮01⋮1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎡μα1α2α2⎦⎥⎥⎤ ⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡e11⋮e1ne21⋮e2ne31⋮e3n⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤
y = X β e yqquad =quadqquad Xqquadbetaquadqquad qquad e y=Xβ e
1.5方差分析模型
方差分析:源于农业田间试验。
某个农业试验基地引进a种小麦品种 将一块田划分为面积相等的n个小块 n1块种第一种小麦,n2块种第二种小麦,等(n1 n2 … na…=n) 只考虑小麦品种,忽略其他因素(施肥量、浇水等对这n块田都控 制在相同状态下)
2.单因素方差分析模型
2.1 单因素概念
① 考虑的因素:小麦品种
② 每种具体的品种 : 称为小麦品种这个因素的一个“水平”
所考虑问题为 “单因素a个水平的问题”
用 y i j y_{ij} yij表示第 i i i种小麦的第 j j j块田的产量, i = 1 , . . . , a ; j = 1 , . . . , n i i = 1,…,a;j=1,…,n_i i=1,...,a;j=1,...,ni
对固定的 i i i, y i 1 , y i 2 , . . . , y i , n i y_{i1},y_{i2},…,y_{i,ni} yi1,yi2,...,yi,ni分别为种植第 i i i种小麦在第 n i n_i ni块田的产量
2.2单因素方差分析模型
2.2.1 假设检验
{ y i j = μ α i e i j e i j 服 从 N ( 0 , σ 2 ) ∑ i = 1 a n i α i = 0 begin{cases} y_{ij} = mu alpha_i e_{ij}\ e_{ij}服从N(0,sigma^2)\ sumlimits_{i=1}^{a} n_ialpha_i=0 end{cases} ⎩⎪⎪⎨⎪⎪⎧yij=μ αi eijeij服从N(0,σ2)i=1∑aniαi=0
- 假设检验
检验模型的因素A的a个水平下的均值是否有显著的差异
假设检验: $$ H_0:mu_1=mu_2=cdots=mu_a
上 述 假 设 若 成 立 则 等 价 于 证 明 了 : 上述假设若成立则等价于证明了: 上述假设若成立则等价于证明了: H_0:alpha_1=alpha_2=cdots=alpha_a=0 $$ 即若H0被接受则有因素A的各水平效应之间没有显著的差异
H0被拒绝,则因素A的各水平效应之间有显著的差异
2.2.2统计量的推导
- S S T SS_T SST
S S T = ∑ i = 1 a ∑ j = 1 n i ( y i j − y ‾ ) 2 = ∑ i = 1 a ∑ j = 1 n i [ ( y i j − y ‾ i ) 2 ( y ‾ i − y ‾ ) 2 ] = S S E S S A SS_T=sumlimits_{i=1}^{a}sumlimits_{j=1}^{n_i}(y_{ij}-overline y)^2=sumlimits_{i=1}^{a}sumlimits_{j=1}^{n_i}[(y_{ij}-overline y_i)^2 (overline y_i-overline y)^2]=SS_E SS_A SST=i=1∑aj=1∑ni(yij−y)2=i=1∑aj=1∑ni[(yij−yi)2 (yi−y)2]=SSE SSA
- 统计量
F = S S A / ( a − 1 ) S S E / ( n − a ) F = frac{SS_A/(a-1)}{SS_E/(n-a)} F=SSE/(n−a)SSA/(a−1)
F值无限接近于1时,H0成立。
若H0不成立时,则F值倾向于较大。 F = S S A / ( a − 1 ) S S E / ( n − a ) ∽ F a − 1 , n − a F=frac{SS_A/(a-1)}{SS_E/(n-a)}backsim F_{a-1,n-a} F=SSE/(n−a)SSA/(a−1)∽Fa−1,n−a
3.SPSS单因素分析实例说明
现有工厂A、B、C,生产同一型号的电池,为比较其质量,从各厂的产品中随机抽取6只电池,经测试得其寿命(h)如下:
(1)在显著性水平 α = 0.05 alpha=0.05 α=0.05下检验三厂生产的电池平均寿命有无显著差异?列出方差分析表; (2)记μs,μB和μc分别为三厂生产的电池平均寿命,写出均值之差 μ A − μ B mu_A-mu_B μA−μB, μ A − μ C mu_A – mu_C μA−μC, μ B − μ C mu_B-mu_C μB−μC 的95%的置信区间
(1)解:
在两两比较选项中设置显著性水平为0.05:
点击确定得到结果输出,方差分析表如下:
0.000<0.05 拒绝原假设: 认为三个厂产出的电池种间有显著差异,即电池厂商对电池寿命有显著影响,到底哪一种更好,还需要进行两两比较。
(3)置信区间
由上表可知: μ A − μ B 的 置 信 区 间 : [ 17.94 , 7.39 ] μ A − μ C 的 置 信 区 间 : [ 1.94 , − 8.61 ] μ B − μ C 的 置 信 区 间 : [ − 10.72 , − 21.28 ] mu_A-mu_B的置信区间:[17.94,7.39]\ mu_A-mu_C的置信区间:[1.94,-8.61]\ mu_B-mu_C的置信区间:[-10.72,-21.28]\ μA−μB的置信区间:[17.94,7.39]μA−μC的置信区间:[1.94,−8.61]μB−μC的置信区间:[−10.72,−21.28]
从上可知三个厂的电池寿命的排行为:
μ C > μ A > μ B mu_C>mu_A>mu_B μC>μA>μB
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/181598.html原文链接:https://javaforall.cn