统计学(一) Z 分数与Z检验先修

2022-05-12 19:34:15 浏览数 (1)

本文将专注于用有趣的方式阐述统计学中最基本的入门概念 —— Z 分数,这也是所有统计学检验的基础,与统计知识相关的实战案例将会在后续推文中陆续呈现。

背景介绍

《西奥蒂尼社会心理学》揭开了自我、环境、群体之间看不见的影响力。“ 行为背后的目的到底是什么?” 与 “ 目的背后的人和环境发挥了怎样的作用?” 是社会心理学探究的两大核心问题。所以我们将以心理学为舟,争取深入浅出统计学中最基础的概念 —— Z 分数。

需求是学以致用最好的催化剂。 —— 佚名

笔者从心理学网站中抽取了有一组关于说服者态度强硬指数的数据(50人),先随机展示 10 条数据。

为了探究受试者态度强硬的程度与说服结果的关系,我带着如下问题开展了心理学与统计学结合的研究:

  1. 从这 50 人中任抽一个,如何快速知晓 TA 的“段位”(不只是排名)情况,并将这个概念汇报给非统计学的学习者?
  2. 任意给一个“段位”指标,我能否快速说出要达到这个段位所需的分数?
  3. 为什么需要引入 Z 分数的概念?直接将数据按由小到大的顺序排好,不就可以知道每位同学的情况了吗?

上述问题中我们虚与委蛇的 “ 段位 ”,在统计学中指的是被抽中的这位被试 (下简称被试) 超过/落后了群体中百分之几的人,又或者说群体中有百分之几的人在 TA 前/后面。不过为了对 z 分数有一个更加深刻的认识,请确保我们已经掌握了如下基础中的基础的概念和简单的术语,它们在统计学实验和文献中会经常出现。

原理趣析

z 分数是将个体分数,个体所在样本或总体的平均值和标准差串在一起的一个概念,它是对普通数据进行转换的结果,可以更好地描述数据在分布中的位置,进而得出原始分数在数据集合中的百分等级,这样便能让一个统计学外行人也能完全听懂;计算公式为 Z = (X - M)/SD,用来描述某分数(变量上的特定个体,只是一个)在其分布中高于(或低于,如果它为负)平均数的标准差数目。总的来说,可以确定该分数所在的位置("段位")

如何理解 Z 分数公式?

先从标准差开始,标准差能够用来表示数据的变异程度。如果某数据告诉你人类平均每天做梦次数为 6,标准差为2.57,则在变相告诉你:每个人的做梦次数在平均数 6 上下约 2.5 个单位范围内变化。所以 Z 分数可以更专业准确的告诉你某人到底比平均值偏了多少,仅此而已。统计学中的各种假设检验如:Z检验,单双样本T检验,卡方检验等等,都能从最基础的 Z 分数公式中看到影子,只是公式中字母的含义和检验的背景不同罢了。

实践应用

我们现在随机抽取一位同学,计算 TA 强硬指数的“段位”求解 z 分数

  现在我们知道了 "石军" 同学的 z 分数大约为 -0.63,那接下来该如何判断其“段位”呢?两个方法:结合正态分布曲线粗略标定法和直接查表法。

查表法:如下为z 分数表

  通过上表不难看出,石军的 z_score 为 -0.63,根据正态曲线的 z 分数表可以找出精确的百分比为 0.735(三位小数),即 73.5%,因为其 z 分数为负,所以我们可以这样说:石军同学的强硬指数低于 73.5% 的同学。

粗略估计法则则可参照下图的范围区间(该图非常常用,需要牢记)

回顾

  1. 谈谈你对平均数,方差和标准差的理解吧,他们之间的关系
  2. z 分数是什么,计算公式?有什么意义?(答案见原文,上同)
  3. z 分数与百分位数有什么异同?计算公式与 numpy 中的 percentile 函数可当成是一体吗?答案:percentile(百分位数)更接近顺序变量,Z-score(标准分数)是连续变量。分布正态时两者无差别,偏态时用百分位数更好,不过还是要看具体情况。)

总而言之,熟练使用 Z 分数是入门统计学的开始,加油!

0 人点赞