卡方检验spss步骤_数据分析–学统计&SPSS操作

2022-08-27 11:13:13 浏览数 (1)

大家好,又见面了,我是你们的朋友全栈君。

笔记内容来源:拉勾教育数据分析实战训练营

我是一个在教育留学行业8年的老兵,受疫情的影响留学行业受挫严重,让我也不得不积极寻找新的职业出路。虽然我本身是留学行业,但对数据分析一直有浓厚的兴趣,日常工作中也会做一些数据的复盘分析项目。加上我在留学行业对于各专业的通透了解,自2016年起,在各国新兴的专业–商业分析、数据科学都是基于大数据分析的专业,受到留学生的火爆欢迎,可见各行各业对于数据分析的人才缺口比较大,所以数据分析被我作为跨领域/转岗的首选。对于已到而立之年的我,这是一个重要的转折点,所以我要反复对比课程内容选择最好的,在7月中旬接触刚拉勾教育的小静老师后,她给我详细介绍了数据分析实战训练营训练营的情况,但我并没有在一开始就直接作出决定。除了拉勾教育之外,我还同时对比了另外几个同期要开设的数据分析训练营的课程,但对比完之后,基于以下几点,我最终付费报名了拉勾教育的数据分析实战训练营:

1、课程体系最全面:课程内容有分析方法论、分析方法、Excel、Mysql、Tableau、Quick BI、神策平台、Hive、统计学、Python、挖掘算法、Spss等,是目前我看到的最全面的。

2、课程体系把握行业人才需求痛点:拉勾主营业务是招聘,最明白企业的人才需求,基于此设计的课程体系是比较贴近实际需求的。通过5个月周期10个阶段,从现状统计到预测分析、从业务数据到编程工具处理复杂业务逻辑数据,实现用数据驱动业务,辅助决策,提升公司业绩。

3、课程学习模式灵活:大部分授课采用录播方式,学习完成后还有直播答疑。比直播打卡更容易安排自己的时间。

4、课程学习过程和结果有保障:学习成果作业检测 实时答疑 班主任督导,每个阶段每个模块的知识学完的作业可以锻炼实操。

5、项目实战内容丰富:也是我我最看好的一点,涵盖了在线教育、电商等多个领域多个项目实战。

6、就业辅导 优秀内推:拉勾平台是互联网行业招聘大本营,这是天然优势。

学习过程亲身感受

目前为止已经学习了近4个月的课程,已经学完Excel、数据分析思维、MySQL、Tableau、quickBI、神策、hive、统计学,每一阶段每一模块的知识都是在线自主学习,完成作业后解锁新课程,直播课会根据全体学员进度,收集疑问然后进行在线直播内容回顾和答疑以及作业讲解。每位讲师都很优秀,都有自己的授课特色所在,内容都是很干货的录好的内容,有些内容导师还会重新录制,不断迭代让学员达到更好的学习体验。作业批改、答疑导师西蒙(我接触最多的,经常麻烦他帮我解决问题)和班主任团子比较nice,认真负责,他们分别负责技术答疑和服务类的问题,平时有问题可以在微信群里问,可以单独聊也可以群里问,他们全天非工作日也会答疑。

这里面我印象最深刻的是SQL的授课老师应颠老师(也很遗憾只知道这位老师的名字),讲解由浅到深,思路非常清晰,对于代码的剖析过程有非常详细的注释,让我这样的小白能够很好的吸收知识。 最开始报名的时候说每周8-12小时足够,但现在看来我每周需要花更多的时间去攻克这些知识点,所以课程是性价比非常高了。每天松懈的时候一看到课表要求的进度,就不断促使我继续坚持学习按照进度来。

统计- 学习笔记归纳

一、卡方检验

假设检验的结论:ρ<0.05,则研究假设成立;反之,p>0.05则研究假设不成立.

卡方检验的重要性

适用于不知道总体参数的检验,是最常用的一种非参数检验。 当不适用参数检验法时,第一个想到的就是卡方检验。

卡方检验的应用场景

以SPSS自带数据telco.sav为例:

1、比例分布检验

检验一个变量中取值的比例分布是否均匀,或者是否符合设定比例分布。

原假设:变量的取值分布与均匀分布(或研究者设定的分布)没有显著差异

研究假设:变量的取值分布与均匀分布(或研究者设定的分布)有显著差异

p<0.05,则研究假设成立。

例:确定一袋糖豆是否包含相等比例的蓝色、棕色、绿色、橙色红色和黄色糖果。也可以检验一袋糖豆是否包含5%蓝色、30%棕色、10%绿色、20%橙色、15%红色和15%黄色的糖果

SPSS操作:分析-非参数检验-旧对话框-卡方

如果只检验前3种,下限1,上限3

2、二项式检验

检验一个变量取二分类两个值的概率是否符合设定的概率。

原假设:变量的第一个取值比例与设定比例没有显著差异

研究假设:变量的第一个取值比例与设定比例有显著差异

p<0.05,则研究假设成立。

例:当您掷出一枚硬币,正面朝上的概率为1/2。根据这一假设将硬币抛掷40次,并记录结果(正面朝上和反面朝上的情况)从二项式检验中,您可能发现,3/4的抛掷都是正面朝上,且观测的显著水平很小(0.0027)。这些结果表明,正面朝上的概率不可能等于1/2;硬币可能是有偏倚的。

SPSS操作:分析-非参数检验-旧对话框-二项

分割点:是将一个连续变量,选择一个值分割为大于该值和小于该值。

3、K-S检验

检验样本来自的总体中,一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布

原假设:变量来自总体的分布与正态分布(或均匀分布等)没有显著差异,即变量在总体中呈现正态分布(或均匀分布等)

研究假设:变量来自总体的分布与正态分布(或均匀分布等)有显著差异,即变量在总体中不呈现正态分布(或均匀分布等)

p<0.05,则研究假设成立。

SPSS操作:分析-非参数检验-旧对话框-单样本K-S

4、游程检验

检验一个变量的两个取值出现顺序是否随机。两个值出现比例各占50%

检验场景:通常是检验随着时间变化而产生的两个数值,出现顺序是否随机。

原假设:变量两个值出现顺序和随机出现没有差异,即变量两个值出现是随机的

研究假设:变量两个值出现顺序不是随机的。

p<0.05,则研究假设成立。

SPSS操作:分析-非参数检验-旧对话框-游程

分割点可以选择中位数,平均值,或定制

5、独立样本非参数检验

独立样本:两组不同不重叠的样本,比如男性和女性在收入、年龄等等分布上是否有差异,即检验不同人群在特定变量取值上是否有差异

注意:分组变量是分类变量、比较变量是连续变量

原假设:两组来自总体的变量数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异

研究假设:两组来自总体的变量数据在分布上有差异,即两组数据在该变量的取值上有显著差异

操作:分析-非参数检验-旧对话框-2个独立样本

6、配对样本非参数检验

配对样本:同一组人群在不同时间采集的两组或多组数据;或者同一组人群不同身体部位采集的两组或多组数据。

检验同一组人群在不同时间、不同部位采集的数据是否有差异。

注意:t1、t2,比较的变量必须是连续变量

原假设:来自总体的同一组人群的两组数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异

研究假设:来自总体的同一组人群的两组数据在分布上有差异,即两组数据在该变量的取值上有显著差异

SPSS操作:分析-非参数检验-旧对话框-2个相关样本

7、交叉分析(列联表分析)

检验两个分类变量(定类和定序)是否存在相关性。

如果场景中需要对连续变量进行卡方检验,首先需要将连续变量转换为分类变量,如年龄分成70后、80后、90后、00后。.

连续变量转成分类变量的操作:转换-重新编码为不同变量,收入分为0-50、51、400、401

如果两个变量都是定类变量,相关系数可通过卡方检验中“名义“里的四个相关系数;如果两个都是定序变量,则选择”有序”里的四个相关系数。

问:如果两个变量中,一个为定类变量,一个为定序变量,相关系数应该选哪个?

答:应该用“名义”中的四个相关系数。原因是定序变量可降级为定类变量,而定类变量不可以升为定序变量。

SPSS操作步骤:

结果解读

第一步:看卡方统计结果,根据P值判断两个变量是否存在相关性,如p<0.05,则说明两者存在显著相关性。

第二步:看相关系数,判断两者之间相关性到底有多大。0-0.2,较弱相关;0.2-0.4,弱相关;0.4-0.6,相关性一般:0.6-0.8,较强相关;0.8-1,极强相关。

第三步,看频次分布,具体分析两者存在什么样相关。

二、t检验

t检验,方差检验都是参数检验,需要知道总体的参数情况,参数检验的前提是服从正态分布

1、单样本t检验

用来检验样本中某个连续变量均值与给定的总体均值是否存在差异

原假设:样本来自总体的该变量均值与给定均值之间没有显著差异

研究假设:样本来自总体的该变量均值与给定均值之间有显著差异I

当p<0.05, 则研究假设成立

用到的变量:一个连续变量

例:

1.周岁儿童的平均身高是否为75厘米

2.居民平均存(取)款金额是否为2000元

SPSS操作:分析-比较平均值-单样本t检验

2、独立样本t检验

用来检验两组独立样本在某个连续变量的均值是否有显著差异

原假设:两组独立样本来自的总体在该变量的均值上没有显著差异

研究假设:两组独立样本来自的总体在该变量的均值上有显著差异

用到的变量:一个连续因变量和一个分类自变量(如果是连续变量,也可以将连续变量进行分组得到一个分类变量)

方差齐性检验:

原假设:两组总体中的方差是相等的

研究假设:两组总体中的方差是不等的

当p<0.05,则研究假设成立,即两组总体中的方差是不等的,需要看第二行的t值检验结果。反之则看第一行的t值结果。

SPSS操作步骤:分析-比较平均值-独立样本t检验

3、配对样本t检验

用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异

原假设:两组配对数据之间没有显著差异

研究假设:两组配对数据间有显著差异

变量:两个连续变量(其实是针对同一组人群不同时间/部位/处理条件测量的两组数据)

SPSS操作:分析-比较平均值-成对样本t检验

三、方差检验

变量:自变量既可以是分类也可以连续变量,因变量必须是连续变量

1、单因素方差检验

检验3组及以上人群在某个连续变量均值上是否存在差异,或某个分类变量对某个连续变量是否存在显著相关。

变量:因变量是一个,且为连续变量;自变量是一个,为分类变量

原假设:自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)

研究假设:自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上显著差异)

例:

1、考察不同学历是否对工资有显著影响

2、考察不同的推销策略是否对销售额产生显著影响

3、考察不同肥料对某农作物亩产量是否有显著差异

SPSS操作:分析-比较平均值-单因素 ANOVA检验

1)两两比较中根据方差齐性检验结果,来选择方差相等的比较结果或方差不等的检验结果

2)方差齐性检验:选项-方差齐性检验。当方差不齐时,则通过非参数检验中的K个独立样本检验法进行检验

方差检验基于平均值,P=0.001<0.05,说明变量各总体方差不相等

只能看不等方差的两两对比。如P=0.898>0.5, 原假设成立,高中毕业和高中未毕业在收入上没有显著差异

由于方差不齐,不能用方差检验,只能两两比较,但要看学历整体对收入有无差异,就用非参数检验方法,分析-非参数检验-旧对话框-K个独立样本

p<0.05, 研究假设成立,不同学历的五个独立样本在收入的分布上有显著差异

2、多因素方差检验

检验多个变量在某个连续变量均值上是否存在差异,或多个变量对某个连续变量是否存在显著相关。

变量:因变量是一个,且为连续变量;自变量是多个,既可以是分类变量也可以为连续变量

原假设:多个自变量与因变量之间不存在显著相关

研究假设:多个自变量与因变量之间存在显著相关

SPSS操作:分析-一般线性模型-单变量

如果自变量的取值未收集全,想推导所有的,就放入随机因子,取值收集全的变量或只想了解已知的取值影响,就放入固定因子

协变量:需要加以控制的,或是连续变量

全因子模型:既考虑所有自变量对于因变量直接效应,又考虑所有分类变量的交互作用对因变量的影响

定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应,或部分自变量的交互作用

当自变量特别多时,尤其是分类自变量多时,且样本量不多时,应该使用定制模型。

学历、退休、婚姻、年龄对于收入有显著影响

四、多变量分析方法的选择

1、方法选择:

有因变量,则建立有监督模型

有监督模型具有两大通用目的:

1)分析哪些自变量对因变量存在显著影响作用

2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型。

方法选择:

1)因变量为连续变量(建立的模型又称为回归预測模型),自变量为连续变量时,可选择回归分析、方差分析;自变量为分类变量或分类 连续变量,可选择带虚拟变量的回归分析、联合分析、方差分析。

2)因变量为分类变量(建立的模型称为分类预测模型),当自变量为连续变量(或连续 分类变量)时,可选用判别分析、 LogistIc、 probit回归等;当自变量全部为分类变量时,可选用对数线性回归。

无因变量,则建立无监督模型

目的:1)对人进行分类,2)对变量/指标进行分类,3)分析变量与变量之间的测量关系

方法选择:

1)自变量为连续变量时,选择因子分析(对变量/指标分类)、聚类分析(对人分类、对变量/指标分类)

2)自变量为分类变量时,对应分析(对人分类)、多维尺度分析(对人分类)

其他分析

1)当模型中需要加入潜在变量(通过多个客观指标测量的抽象概念)、或需要考虑多个变量之间的因果关系时,可选择结构方程模型、路径模型、协方差分析等。

2)综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等

2、相关分析:

相关系数

相关系数是衡量两个变量之间变化趋势的相似性

不同变量类型的相关系数

  • 两个变量都为连续变量,则可用 pearson相关系数
  • 两个变量都为定序变量,则可用GMMA等相关系数
  • 两个变量都为定类变量,则可用 LAMMDA等相关系数
  • 一个变量为定类变量,一个变量为连续变量,可通过ETA系数来测量相关性

三种重要相关系数

1) pearson相关系数:参数检验,针对两个都是连续变量的数据进行相关性判断

2) spearman相关系数:非参数检验,针对两个都是定序变量

3) Kendals tau-b相关系数:非参数检验,针对两个都是定序变量

相关分析的假设检验

原假设:两个变量来自总体中不存在显著相关性

研究假设:两个变量来自总体中存在显著相关性

显著性检验目的:是用来判断两个变量在总体中是否存在相关性

相关系数的目的:是计算两个变量在样本数据中的相关性强弱

3、回归分析

皮尔逊相关系数与简单回归分析之间的区别是,相关分析不区分自变量和因变量,而回归分析一定区分解释变量和因变量。这是因为回归分析的目的是,根据预测变量的给定值来对因变量取值进行预测。

目的

当需要用一个数学表达式(模型)表示多个因素(原因)与另外一个因素(因素)之间关系时,可选用回归分析法。

应用

1)分析哪些自变量对因变量存在显著影响作用,R方值可以不要求大于0.8: 2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型,模型R方值必须要求大于等于0.8

但是,在人文社科领域,很多回归模型的R方值达不到0.8,也可以用来做预测。

回归分析分类:

  • 因变量自变量都是定量变量的回归分析:普通回归分析
  • 因变量是定量变量,自变量中有定性变量的回归分析:含有哑变量/ 虚拟变量的回归分析
  • 因变量是定性变量的回归分析: Logistic回归分析

虚拟变量

原因:分类变量无法参与到回归模型中的加减乘除运算

操作:将原先的分类编码统一转换为0、1数值

回归分析前提

线性趋势:自发量和因发量的关系是线性的,如果不是,则不能采用线性回归奎分析。可以通过散点图来加以判断

独立性:因发量y的取值相互独立,之间没有联系。-反映到模型中要求残差闻相互独立,不存在自相关,否则应采用自回归模型分析

正态性:自发量的任何一个线性组合,因发量y均服从正态分布。-反映到模型中要求残差服从正态分布

方差齐性:就自发量的任何一个线性组合,因发量y的方差均相同。-反映到模型中要求残差的方差齐性。

回归分析建立步骤

1)选择变量 因变量:根据研究需求或问题推导出来 自变量:第一:前人的研究成果,第二:个人经验

2)确定自变量与因变量之间的关系

首先,挨个将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。 其次,通过卡方检验、T检验、F检验或相关分析法,挨个分析每个备选的自变量与因变量之间是否存在显著的相关性。将与因变量明显没有相关性的自变量剔除掉,不加入到后期模型中。

3)选择对应的线性方程或非线性方程,进行各项参数的计算

4)对模型进行全方位检验

多元线性回归SPSS操作

解决问题:分析影响人们家庭收入的因素有哪些,建立预测收入的回归方程

因变量:家庭收入

自变量:年龄、工作年限、性别、学历

操作:

首先,挨个将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。

图形-图表构建器

1、转换=重新编码为不同变量,定义旧值与新值的转换关系

2、分析-回归-线性,输入:把所有自变量全部放入模型中

3、统计-共线性诊断,残差-DW诊断检验

4、图-标准化残差图-直方图、正态概率图

5、结果解读:

1)拟合优度检验R方值F值,F值对应的概率P值小于0.05,研究假设成立,即至少有一个自变量对因变量存在显著影响

2)参数显著性检验 根据每个自变量的t值对应的概率P值是否小于0.05,如小于0.05,则研究假设成立,即该自变量对因变量存在显著影响。

根据下表得出,工作年龄和学历对收入显著影响,而年龄和性别没有。通过标准化系数来判断两者对影响程度大小,可知工作年限的影响明显大于学历。(标准化系数是-1-1之间)

工作年限对收入影响程度:在其他变量不变的情况下,工作年限每增加一个单位(1年),则因变量家庭收入平均6.279个单位

学历对收入的影响程度:Ed1=-51.042表示ed1代表的学历人群(高中以下)比对照的学历人群(大专)在因变量家庭收入上,平均低51.042个单位。

3)共线性检验 通常根据VIF>10,自变量之间存在共线性。

如果存在共线性,需要采用逐步回归法,剔除应该剔除的自变量。容差和VIF是导数关系

4)残差检验 DW(德宾-沃森)越接近2,表示残差不存在自相关性。DW在0~2或-2~0之间,表示残差存在自相关性。

需要注意,上述建立的模型不是最终模型,因为模型里面存在对因变量没有产生显著影响的自变量,产生了一定的噪音,需要在模型里面把噪音删除掉。

重新线性回归-步进

回归方程

先通过逐步回归法,将对因变量没有显著影响的自变量从模型中删除,得到干净的模型。

方程:y=34.601 6.021*工作年限-62.647*ed1-36.379*ed2

4、Logistic回归

应用场景:做分类预測模型,且为非参数检验方法。可以用于二分类、无序多分类、有序多分类

二元Logistic回归SPSS操作

分析-回归-二元Logistic

例:预测是否退休

分类变量转换为虚拟变量

结果解读

1)根据参数检验中的p<0.05,得到自变量对因变量存在显著影响,即年龄和学历3对退休有显著影响

2)根据Wad值的大小,判断自变量对因变量的影响程度排名,瓦尔德值越大,自变量对因变量的影响程度越高(学历需要看7.838)

3)优势比OR值即Exp(B)大于1,表示该自变量会增加因变量取1的概率;反之会降低因变量取1的概率。和B对应,正值对应Exp(B)大于1,负值对应Exp(B)小于1

4)连续自变量对因变量的影响程度:在其他变量不变的情况下,当年龄增加一个单位(1岁)时,优势比增加1.385倍 (年龄越大,退休概率越高)

5)分类自变量对因变量的影响程度:在其他变量不变的情况下,大专学历的优势比是研究生学历优势比的0.120倍(大专学历的概率高于研究生学历的退休概率)

6)LogistIc公式:

ln(p/(1-p))=-20.305-0.782*ed1-0.561*ed2-2.121*ed3-1.897*ed4-0.429*gender 0.326*age

(这不是最终模型)

7)计算出概率,p>0.5,预测退休

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/145245.html原文链接:https://javaforall.cn

0 人点赞