数学建模:方差分析模型[通俗易懂]

2022-11-04 16:56:55 浏览数 (2)

数学建模:方差分析模型

1.方差分析模型引入

考虑的模型,它的自变量是只能取0,1两个值的示例变量。这种变量往往比较两个多个因素的某种效益存在与否。比如考试及格为0,不及格为1.

方差分析的实质:假设检验问题

一个复杂的事物,其中往往有许多因素互相制约又互相依存

方差分析的目的是通过数据分析找出对该事物有显著影响的因素, 各因素之间的交互作用,以及显著影响因素的最佳水平等。

方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来 源的部分离差平方和,这是一个很重要的思想。

1.2 方差分析模型需要满足的条件

要求所考虑样本满足的条件

① 独立性:各组数据相互独立、互不相关

② 正态性:对于偏态分布的变量通过对数、倒数、平方根变化等方法,变为正态分布或者近似正态分布再来进行方差分析

③ 方差齐性

1.3 方差分析的主要用途

使用场景:

  • 制造商有两种不同的方法来制造灯泡。 他们想知道一个过程是否比另一个好。
  • 一组患者正在尝试三种不同的疗法:咨询、药物治疗和生物反馈。你想知道哪一种疗法是否比其他的更好。

方差分析主要用途:

均值差别的显著性检验

②分离各有关因素并估计其对总变异的作用

③分析因素间的交互作用

④方差齐性检验

1.4 例子

例1:比较三种小麦品种的优劣,选六块面积相等,土质肥沃程度一样的田地,每种小麦播种在 其中的两块田内,给予完全相同的田间管理。问 每块田小麦的产量?

用 y i j y_{ij} yij​表示第 i i i种小麦的第 j j j块田的产量。对 y i j y_{ij} yij​作如下分析: y i j = μ α i e i j y_{ij} = mu alpha_i e_{ij}\ yij​=μ αi​ eij​ μ mu μ:总均值

α i alpha_i αi​:第i种小麦品种的效益

e i j e_{ij} eij​:是随机误差,表示所有其他未知控制因素 以及各种误差的总效应。 1 号 小 麦 2 块 田 地 产 量 : { y 11 = μ α 1 e 11 y 12 = μ α 1 e 12 2 号 小 麦 2 块 田 地 产 量 : { y 21 = μ α 2 e 21 y 22 = μ α 2 e 22 1 号 小 麦 2 块 田 地 产 量 : { y 31 = μ α 3 e 31 y 22 = μ α 3 e 32 1号小麦2块田地产量:begin{cases} y_{11} = mu alpha_1 e_{11}\ y_{12} = mu alpha_1 e_{12}\ end{cases}\ 2号小麦2块田地产量:begin{cases} y_{21} = mu alpha_2 e_{21}\ y_{22} = mu alpha_2 e_{22}\ end{cases}\ 1号小麦2块田地产量:begin{cases} y_{31} = mu alpha_3 e_{31}\ y_{22} = mu alpha_3 e_{32}\ end{cases} 1号小麦2块田地产量:{ y11​=μ α1​ e11​y12​=μ α1​ e12​​2号小麦2块田地产量:{ y21​=μ α2​ e21​y22​=μ α2​ e22​​1号小麦2块田地产量:{ y31​=μ α3​ e31​y22​=μ α3​ e32​​

例2:Y:药效度量指标比较三种药治疗某种疾病的效果。

假设每种药各有n个人服用, 采用双盲方法:病人不知道自己服用哪种药;医生也不知道哪个病人服用哪种药 y i j y_{ij} yij​为服用第i种药的 第j个病人的药效测量值 y i j = μ α i e i j i = 1 , 2 , 3 , j = 1 , . . . , n y_{ij} = mu alpha_i e_{ij}qquad i = 1,2,3,j=1,…,n\ yij​=μ αi​ eij​i=1,2,3,j=1,...,n μ mu μ:总平均

α i alpha_i αi​:表示第 i i i种药的效应

e i j e_{ij} eij​:表示随机误差

模型: [ y 11 ⋮ y 1 n y 21 ⋮ y 2 n y 31 ⋮ y 3 n ] = [ 1 1 0 0 ⋮ ⋮ ⋮ ⋮ 1 1 0 0 1 0 1 0 ⋮ ⋮ ⋮ ⋮ 1 0 1 0 1 0 0 1 ⋮ ⋮ ⋮ ⋮ 1 0 0 1 ] [ μ α 1 α 2 α 2 ] [ e 11 ⋮ e 1 n e 21 ⋮ e 2 n e 31 ⋮ e 3 n ] begin{bmatrix} y_{11}\ vdots\ y_{1n}\ y_{21}\ vdots\ y_{2n}\ y_{31}\ vdots\ y_{3n} end{bmatrix}= begin{bmatrix} 1&1&0&0\ vdots&vdots&vdots&vdots\ 1&1&0&0\ 1&0&1&0\ vdots&vdots&vdots&vdots\ 1&0&1&0\ 1&0&0&1\ vdots&vdots&vdots&vdots\ 1&0&0&1 end{bmatrix}begin{bmatrix}mu\alpha_1\alpha_2\alpha_2end{bmatrix} begin{bmatrix} e_{11}\ vdots\ e_{1n}\ e_{21}\ vdots\ e_{2n}\ e_{31}\ vdots\ e_{3n} end{bmatrix} ⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡​y11​⋮y1n​y21​⋮y2n​y31​⋮y3n​​⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤​=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡​1⋮11⋮11⋮1​1⋮10⋮00⋮0​0⋮01⋮10⋮0​0⋮00⋮01⋮1​⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤​⎣⎢⎢⎡​μα1​α2​α2​​⎦⎥⎥⎤​ ⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡​e11​⋮e1n​e21​⋮e2n​e31​⋮e3n​​⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤​

y = X β e yqquad =quadqquad Xqquadbetaquadqquad qquad e y=Xβ e

1.5方差分析模型

方差分析:源于农业田间试验。

某个农业试验基地引进a种小麦品种 将一块田划分为面积相等的n个小块 n1块种第一种小麦,n2块种第二种小麦,等(n1 n2 … na…=n) 只考虑小麦品种,忽略其他因素(施肥量、浇水等对这n块田都控 制在相同状态下)

2.单因素方差分析模型

2.1 单因素概念

① 考虑的因素:小麦品种

② 每种具体的品种 : 称为小麦品种这个因素的一个“水平”

所考虑问题为 “单因素a个水平的问题”

用 y i j y_{ij} yij​表示第 i i i种小麦的第 j j j块田的产量, i = 1 , . . . , a ; j = 1 , . . . , n i i = 1,…,a;j=1,…,n_i i=1,...,a;j=1,...,ni​

对固定的 i i i, y i 1 , y i 2 , . . . , y i , n i y_{i1},y_{i2},…,y_{i,ni} yi1​,yi2​,...,yi,ni​分别为种植第 i i i种小麦在第 n i n_i ni​块田的产量

2.2单因素方差分析模型

2.2.1 假设检验

{ y i j = μ α i e i j e i j 服 从 N ( 0 , σ 2 ) ∑ i = 1 a n i α i = 0 begin{cases} y_{ij} = mu alpha_i e_{ij}\ e_{ij}服从N(0,sigma^2)\ sumlimits_{i=1}^{a} n_ialpha_i=0 end{cases} ⎩⎪⎪⎨⎪⎪⎧​yij​=μ αi​ eij​eij​服从N(0,σ2)i=1∑a​ni​αi​=0​

  • 假设检验

检验模型的因素A的a个水平下的均值是否有显著的差异

假设检验: $$ H_0:mu_1=mu_2=cdots=mu_a

上 述 假 设 若 成 立 则 等 价 于 证 明 了 : 上述假设若成立则等价于证明了: 上述假设若成立则等价于证明了: H_0:alpha_1=alpha_2=cdots=alpha_a=0 $$ 即若H0被接受则有因素A的各水平效应之间没有显著的差异

H0被拒绝,则因素A的各水平效应之间有显著的差异

2.2.2统计量的推导
  • S S T SS_T SST​

S S T = ∑ i = 1 a ∑ j = 1 n i ( y i j − y ‾ ) 2 = ∑ i = 1 a ∑ j = 1 n i [ ( y i j − y ‾ i ) 2 ( y ‾ i − y ‾ ) 2 ] = S S E S S A SS_T=sumlimits_{i=1}^{a}sumlimits_{j=1}^{n_i}(y_{ij}-overline y)^2=sumlimits_{i=1}^{a}sumlimits_{j=1}^{n_i}[(y_{ij}-overline y_i)^2 (overline y_i-overline y)^2]=SS_E SS_A SST​=i=1∑a​j=1∑ni​​(yij​−y​)2=i=1∑a​j=1∑ni​​[(yij​−y​i​)2 (y​i​−y​)2]=SSE​ SSA​

  • 统计量

F = S S A / ( a − 1 ) S S E / ( n − a ) F = frac{SS_A/(a-1)}{SS_E/(n-a)} F=SSE​/(n−a)SSA​/(a−1)​

F值无限接近于1时,H0成立。

若H0不成立时,则F值倾向于较大。 F = S S A / ( a − 1 ) S S E / ( n − a ) ∽ F a − 1 , n − a F=frac{SS_A/(a-1)}{SS_E/(n-a)}backsim F_{a-1,n-a} F=SSE​/(n−a)SSA​/(a−1)​∽Fa−1,n−a​

3.SPSS单因素分析实例说明

现有工厂A、B、C,生产同一型号的电池,为比较其质量,从各厂的产品中随机抽取6只电池,经测试得其寿命(h)如下:

(1)在显著性水平 α = 0.05 alpha=0.05 α=0.05下检验三厂生产的电池平均寿命有无显著差异?列出方差分析表; (2)记μs,μB和μc分别为三厂生产的电池平均寿命,写出均值之差 μ A − μ B mu_A-mu_B μA​−μB​, μ A − μ C mu_A – mu_C μA​−μC​, μ B − μ C mu_B-mu_C μB​−μC​ 的95%的置信区间

(1)解:

在两两比较选项中设置显著性水平为0.05:

点击确定得到结果输出,方差分析表如下:

0.000<0.05 拒绝原假设: 认为三个厂产出的电池种间有显著差异,即电池厂商对电池寿命有显著影响,到底哪一种更好,还需要进行两两比较。

(3)置信区间

由上表可知: μ A − μ B 的 置 信 区 间 : [ 17.94 , 7.39 ] μ A − μ C 的 置 信 区 间 : [ 1.94 , − 8.61 ] μ B − μ C 的 置 信 区 间 : [ − 10.72 , − 21.28 ] mu_A-mu_B的置信区间:[17.94,7.39]\ mu_A-mu_C的置信区间:[1.94,-8.61]\ mu_B-mu_C的置信区间:[-10.72,-21.28]\ μA​−μB​的置信区间:[17.94,7.39]μA​−μC​的置信区间:[1.94,−8.61]μB​−μC​的置信区间:[−10.72,−21.28]

从上可知三个厂的电池寿命的排行为:

μ C > μ A > μ B mu_C>mu_A>mu_B μC​>μA​>μB​

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/181598.html原文链接:https://javaforall.cn

0 人点赞