按说之前有个参数估计,但是不影响这节。 常见的模型有:
- 某产品的次品率是否不超过3%3%?
- 男生群体平均身高是否大于女生群体平均身高?
- 身高是否服从正态分布?
- 抽烟与慢性支气管炎是否有关?
从上述例子中发现,所关心的问题归纳为“是”与“否”的判断,并非给出一个具体的数或者区间,这区别与参数估计问题。我们把这类问题称为假设检验问题(Hypothesis Tests)。
对总体的某种规律提出一个假设,通过样本数据来推断,决定是否拒绝这一假设,这样的统计活动称为假设检验。
看看假设检验在哪里
推断统计学,或称统计推断(英语:Statistical inference),指统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。更概括地说,是在一段有限的时间内,通过对一个随机过程的观察来进行推断的。
统计学中,统计推断与描述统计相对应。
假设检验(英语:hypothesis testing)是推论统计中用于检验现有数据是否足以支持特定假设的方法。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。
假设肯定就会犯错误,假设检验是说让犯错误的概率尽可能小,然后就会有两类错误。
一类是说原假设是真的,但是我们错误的拒绝了原假设,然后就是相当于弃真。
第二类错误实际上它是假的,但是我们接受了它这叫取伪,然后我们尽可能就是让弃真和取伪这两个概率都尽可能小。
但是这两个概率都很小不太可能做到,然后就是控制第一类错误的条件下。然后使犯第二类错误的概率尽可能小,叫显著性检验。
这个图好,可以看都头尾就是我们说的两个假设
先构造一个统计量,这样的话呢,它就能根据这个统计量的构造一个拒绝域,比如说这个正态分布,它就能构造一个标准正态,比如说落在中间的话是95%,那么两侧的话应该是5%除以二,那就是2.5%,如果根据题里面给出来的这些数,算出来这个统计量,如果他要落在拒绝域里面的话,嗯,那OK,那就和这小概率原理矛盾,意思就是说小概率事件发生了,那我们就拒绝原假设,那如果要是它落在拒绝域外面,就是落在中间的话,接受原假设。
整体还是还是尽量往对的方向假设。
这里举女士品茶的事情(猜十次,女生说自己可以辨认茶倒在牛奶里面还是牛奶先放的茶):
其中H是英文假设“hypothesis”的首字母,H0习惯被称作零假设或者原假设,H1而被称作(即指原假设被拒绝后可供选择的假设)。
女士猜茶是属于二项分布
分布一样会写成:
因为同分布,可以写成这样
提出假设后,我们就接受H0成立:
也就是这个随机事件,没有分辨能力
如果猜对9或10,说明H0不正确,就是确实有分辨的能力(H0被拒绝了,你这种写法不对),那就是说备择的选择是对的。
有一个名词叫拒绝域:只要实验结果落入此区域就可以拒绝原假设H0。因为在图像上面集中在一边,也叫单边拒绝域。
选择0.05是因为费希尔觉得它足够小,如果实验结果落入此区域,那么说明小概率事件发生了,所以拒绝原假设。费希尔把此处选择的0.05称为显著性水平。
小概率事件说的是:
小概率事情发生的时候,我们只能说“有把握”或是有95%的把握拒绝原假设H0(就是更加详细了)
上面的显著性的值也没有那么死,就是你可以自己选定显著性水平
猜对一个和九个,我们都说她有这个分辨的本事,但就是说这个本事的高还是低。
假设变为上图
不具备分辨能力的概率为啥等于0.5?一无所知的时候,选择答案 A 或者 B 对你而言都是一样的,换言之就是等概率的。此时选择 A 的概率为 0.5
最后做实验,如果落入拒绝域就拒绝原假设H0(0杯和9杯),也就是拒绝了不具备分辨能力。
你想,什么情况下可以做到这样?一种就是你都能找到,那就是9杯。0杯是因为你秀一下肌肉,在知道正确的情况下全选错的。
因为样本的随机性,可能会犯错误:
有两类
先控制第一类,然后第二类。
看看主要的-正态总体均值的假设检验
第一种Z检验法
在H0成立的情况下,有:
这个是样本的正态
因为上面的双边拒绝域我们是知道的,这里直接转换到标准
还有上分位点
这个是右边的
以上就是期望已知一个参数的计算
接下来是t检验,S方是样本的方差(这段我目前学的不好)
常用t来检验
代码语言:javascript复制https://bookdown.org/hezhijian/book/author.html