今天有两个消息,一个好消息,一个坏消息。
好消息是,我的公众号粉丝数正式破万了:
坏消息是,我仅仅用了一个检查元素就修改了网页显示内容:
所以你看,其实很多东西都可以完全不用PS,却完美地修饰对吗?
最近逛知乎,看了几篇如何公众号增粉的文章(嘿嘿,毕竟公众号刚开始运营,关注的人不多),偶然间识破有人用此法在知乎瞎扯写文章,收获粉丝无数。
思绪一下子回到多年以前,当时在51信用卡论坛,有人却真的用此法研制成了刷信用卡直接秒到借记卡中,配合银行的满减,再撸一把积分,妥妥得赚了不少。更NB的要数:一行代码打开网页用阿里的支付宝付款,钱却秒到了腾讯的财付通里,再免费提现到借记卡中,啧啧……
俱往矣,今天来说一说数据道德的问题。
数据的价值越来越凸显的今天,如何从数据中得到准确有价值的信息同样越来越重要。
俗话说一图胜千言,数据可视化在数据分析中占有举足轻重的地位,而数据可视化也是“骗人”的重灾区。
上图为例,乍一看,这位球员2013年相比2012年的投球速度断崖式下滑了一半。从他憔悴的面容和凸出的啤酒肚上我们可以大致猜测他的感情生活遭遇了不幸,可能每日通过酗酒来渡过,究竟是什么原因呢,妻子出轨?儿子DNA检验不是他的?
但是如果我们定睛一看,75.3相比77.3只下滑了2,根本是微不足道的。
这一类的例子数不胜数,包括本人实际工作中也曾无意犯过这样的错误。
比如胜率:
GDP趋势:
二八法则
当年美国算是平稳渡过经济危机后,奥巴马说“我国经济 09 年以来增长 13%”的时候,他没有告诉你其实美国人只有最富的 1% 收入增长了——剩下 99% 的人收入反而比之前下降了。
会出现这种情况是因为收入不是正态,而是幂律分布的(即大家常说的 “20% 拥有 80% 的财富”)。所以最富人群的收入变化对经济总量影响最大,而剩下大多数人的收入变化对总量几乎没有影响。
辛普森悖论
做数据分析的学过统计学应该都听过这个悖论。我们做个案例:
小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。
小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:
医院A最近接收的1000个病人里,有900个活着,100个死了。
医院B最近接收的1000个病人里,有800个活着,200个死了。
作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。
嘿嘿,如果小明的选择是医院A,那么她就中计了。我们来看:
单独看严重病患的存活率,B高,单独看不严重的存活率,还是B高,但是总的存过来却是A远远高于B。
这就是统计学中著名的黑魔法之一——辛普森悖论(Simpson's paradox)。辛普森悖论最初是英国数学家爱德华·H·辛普森(Edward H. Simpson)在1951年发现的。
辛普森悖论就是当你把数据拆开细看的时候,细节和整体趋势完全不同的现象。
从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量,比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。
数据欺骗操控舆论
其实上面的数据可视化分析都是为了阐明自己的观点而有意无意造成的,也都可以理解。
但是很多数据或者结论却是直接用来操控舆论走向,历来如此,但是最近的很多新闻尤甚。
3月28日荷兰国家电视台NOS发布一条新闻表示从中国进口的具有KN95质量合格证的口罩没有达标。部分口罩不能完全贴合面部,其他的滤芯达不到FFP2防护级别。
同样,3月份捷克向中国订购了15万套的病毒快速测试剂,当地卫生专家23日指责说:指试剂错误率高达80%。
【这件事被各种外媒转载】
然后同一天晚些时候,捷克防疫工作负责人、卫生部副部长澄清:快速检测不是结论性,而是指示性的;检测的错误率并不如这位卫生学家所说的高达80%,而只有20%-30%
【这个声明没有几家外媒转载】
4月6日西班牙政府从中国订购了4.3亿美元的医疗物资,包括64万套检测工具,首批运抵5.5万支试剂部分检测准确率仅30%,远低于预期的80%,当地卫生部已下令停用,并表明将退货。
【这件事被各种外媒转载】
然而,西班牙卫生部随后声明:该快检试剂盒供应商拥有合法的欧盟CE认证,因此可以在西班牙合法销售。
【这个声明没有几家外媒转载】
所以,你看,数据本身是一回事,让数据以一种什么样的形式出现却是另外一回事。需要的是我们擦亮眼睛,学会识破统计数据中的一些常见小把戏。当然,更需要注意的是,上述几种只是最为常见与简单的统计小把戏,在更低的统计中,还有更多高深的把戏,这需要我们以更为专业的知识去识破他们。