是否,是否,总是富肥穷瘦?

2022-04-27 14:23:30 浏览数 (1)

本文统计学知识点:

代码语言:javascript复制
统计描述:
统计量包括:衡量中心趋势的均值、中位数、众数,衡量相对位置的分位数,
衡量离散程度的方差和标准差,以及衡量相关性的Pearson相关系数。
统计图则包括直方图、ECDF图、箱图和散点图。
统计推断:假设检验

提起 「肥」与「瘦」不由的想起了苏轼 老人家的诗词《孙莘老求墨妙亭诗》其中一句传为经典:“短长肥瘦各有态,玉环飞燕谁敢憎”,促成 “环肥燕瘦”一词。苏轼诗词韵味无一,但诗意却有点武断,不可否认“短长肥瘦各有态”,但“玉环飞燕谁敢憎”有点主观异端。今天我们把“谁”代指财富,看 “富” 是憎肥?还是憎瘦。也巧妙的证伪本文主题。

先一睹,以肥为美的唐美人:杨玉环

杨玉环

托夫勒斯基赵四说:“没有调查没有发言权,没有数据也不敢妄下断言。“

数据来源:

代码语言:javascript复制
CDC(Center for Disease Control and Prevention)#疾病预防控制中心
BRFSS (Behavioral Risk Factor Surveillance System)#行为风险因素监测系统
网站数据地址:https://www.cdc.gov/brfss/annual_data/annual_2015.html

About BRFSS:

The Behavioral Risk Factor Surveillance System (BRFSS) is the nation's premier system of health-related telephone surveys that collect state data about U.S. residents regarding their health-related risk behaviors, chronic health conditions, and use of preventive services. Established in 1984 with 15 states, BRFSS now collects data in all 50 states as well as the District of Columbia and three U.S. territories. BRFSS completes more than 400,000 adult interviews each year, making it the largest continuously conducted health survey system in the world.

大意:BRFSS机构每年走访调查美国50个州的40万成年人的各项(2018有200多项)健康相关指标。数据权威性高,准确度高。

本文提取两个数据指标:BMI(体重/身高计算而来),BMI指数,用来衡量人的胖瘦程度,BMI指数越高人越胖。income(收入等级),这里分了8级,分别用数字1到8代表,8级是年家庭收入超过7.5万美元的人群,在这里我们将8级的人群定义为富人,其他1-7级的人群定义为普通人。过滤存在缺失值的调查数据,有效数据行数:343092行。分成如下两组数据:

两组数据概览

从表中我们可以初步的看出 富人的BMI的平均值27.45小于普通人的BMI平均值28.58,心虚的似乎富人比普通人更瘦一些(富人与普通人的均值差:27.45-28.58= -1.09)。为了防止真实情况“被平均”,我们进一步计算两组数据的中位数,众数。至此,我们仍然无法理直气壮的给出答案。需要更进一步的探索。

两组数据的中位数与众数

我们来看看两组数据的分布情况,绘制直观的直方图,两组数据的BMI都集中在「20~40」之间。也存在异常值的BMI在「60~100」的个例。

为了更清新和准确的的对比两组数据,我们忽略掉异常BMI值的影响,选取BMI在「10~60」的区间数据,做两组数据的偏度对比图,根据偏度是不是可以发现点什么呢?:

两组数据的偏度对比

接着我们绘制更直观的 经验累积分布函数图:ECDF(Empirical Cumulative Distribution Function),原理:将两组BMI数据从小到大排列,并用排名除以总数计算每个数据点在所有数据中的位置占比。比如总共100个数据中排第20位的数据,其位置占比为20/100=0.2 。将所有的数据以BMI值为横坐标(X轴),占比值为「0~1」的纵轴(Y轴):

两组数据的ECDF图

从两组数据的ECDF图普通人群(绿色点)比富人(蓝色点)的分布更靠右,即向BMI变大的方向偏移。也可以看出富人较普通人偏廋。不如我们更清新的看看两组的数据的箱线图:

当考虑了样本数据的离散度后,就能够更精准的衡量两类人群BMI值的差异,即使用一个新的量:Cohen's d,它可以简单看做是均值的差值除以两个样本综合的标准差。其公式定义如下:

计算的Cohen’s d的绝对值是0.163,0.163代表两类人群的BMI值有差异,经过几番层层的验证,我们可以初步的一个结论:富人较普通人偏瘦。

是否,是否,总是富肥穷瘦?答案是:否。

用假设检验的方法来,再一次验证结论,提高可靠性。

代码语言:javascript复制
开始假设检验(统计推断的重要方法):

(1) 结合问题建立假设;
问题:富人的BMI平均值是否等于,总体所有人的BMI平均值?
建立假设:
原假设:富人的BMI均值等于总体所有人的BMI均值28.188。
备择假设:富人的BMI均值小于总体所有人的BMI均值28.188.#这是一个单边检验问题。

(2) 选择检验统计量;
选择t统计量检验方法,也可选择z统计量检验方法。

(3) 给出显著性水平;
我们选择显著水平的值为:0.1

(4) 根据样本数据,计算检验统计量样本值;
提取富人的BMI集合:x <- 富人的BMI值的向量

(5) 在原假设成立的条件下,根据检验统计量的样本值和检验统计量的分布,计算p值;t.test(x, mu = 28.188);计算出p值:0.000000001(6) 比较 显著性水平 和p值,若p值小于 显著性水平,则拒绝 原假设;否则接受原假设。 
因为p值小于0.1的显著水平,所以我们拒绝原假设,选择备择假设,富人的BMI均值小于
总体所有人的BMI 均值。

在经济快速发展的今天,人们物质生活水平不断提高的社会,“富不一定肥,穷不一定瘦”也是社会进步的一种表现。同时心中有一个很大的“问号”,为什么“富缺偏瘦”,富与瘦到底有没有因果关系?谁是因?谁是果呢?

有人认为:“富人因为拥有高于常有的财富,他们拥有健康的三餐,享受健康的医疗”。

有人认为:“拥有自律的生活,积极的锻炼,对自己身材有掌控力的人,他们更容易获得财富”

是非难断,但是富和瘦是存在相关性的,也许在这个快速发展的社会,可以说胖是对穷的一种潜标签,不管是富憎肥,还是穷憎瘦。我们都应在提醒自己保持健康的生活方式,强有力的体魄都是我们必须的,祝大家远离肥胖,健康多金。

最后,一窥瘦也极致的大汉美人:赵飞燕

0 人点赞