透过GDP看“图表如何撒谎”

2019-11-14 13:34:31 浏览数 (1)

“一张图表是如何撒谎的?

有几种常见的方式:糟糕的设计、使用不可靠的数据、数据不充分、掩盖不确定性、引入歧途的图案、为了迎合期望或偏见。

—— 《How Charts Lie》作者 Alberto Cario

这是一个数据如洪水般涌现的时代,图表随处可见。如何分辨真实与谎言、哪些是垃圾,哪些是价值信息是一种很重要的分析能力。希望读者在阅读完此篇文章后,再来阅读GDP数据,可以变得更“聪明”

/ 糟糕的设计

2011年美国总统奥巴马在国会报告上使用了下图中的数据来做演示,描述5个国家2010年GDP的比较。如果不看数字的话,第一感觉是美国的GDP惊人的巨大。

这是因为该图使用了半径来衡量数据大小,而圆的面积是π*半径的平方,二次方放大了圆的视觉效果。按面积修正后的结果如下,美国依然是最大,但不会显得那么夸张。

其实该图没有必要使用圆形面积,以致于造成不必要的困惑。一张简单的条形图完全可以胜任:

设计一张数据图表需要考虑的细节有很多,图表类型的选择、大小、指标、刻度、颜色...每个细节都可能出错,而一旦出错,就会造成覆水难收的败笔。

/ 使用不可靠的数据

近期有一张石家庄GDP异常的图表在网上热议,很多关于“石家庄经济分析”的评论是纷纷扬扬,然而最后证明是媒体统计数字的口径有误...

真实的数据是同比增长7.1%(见下图中官方发布的说明备注2)。估计原图的媒体发布者也失去了不少粉丝的信任。

一张图表或许很美、很有震撼力、说服力,但如果数据本身有问题,便是金玉其外、败絮其中。

/ 不充足的数据

受里拉贬值、政治局势动荡、债台高筑等困扰,土耳其经济情况堪忧,2019年第1季度更是出现断崖式下跌。很多媒体报道“10年来首次衰退”,比较有意思的是,没有一篇文章放入10年的数据来做辅助说明。

报道一:

报道二:

其实,如果记者们稍花些时间百度下土耳其10年GDP数据,就可以很容易发现,自从2013年达到顶峰后,经济衰退就已经开始了,何来“10年首次”。

与其给读者一叶障目,不如给个森林。

/ 掩盖不确定性

下面这张信息图表可谓在艺术设计感上下足了功夫,也可能会让很多中国读者热情澎湃,到2030年,中国这个经济体比美国的2倍还要庞大?

这背后基于增长率的计算似乎过于夸张了。表达同样类型的数据,我们来看另一位作者是如何处理的 (下图实际是一张动态图表,其中美国、中国的GDP增长率滑块可以拨动调整)

在GDP数字上,中国迟早是要成为第一大经济体的,只不过没有那么夸张的快,经济“软着陆”、稳健发展,才是数据背后的故事。

图表需要使用准确的数据,但很多时候,数据本身就是不确定的,而这种不确定性也应该被披露。

/ 引入歧途的图案

英国权威医学刊物《新英格兰医学杂志》曾经刊登过一篇文章:一个国家消耗巧克力的数量越多,该国诺贝尔奖的获奖人数就越多。

报道借助这项数据分析来阐述:巧克力的某种物质,能够延缓大脑衰老、增强思维能力,甚至还能帮助大脑保持清醒。

巧克力决定决定诺贝尔奖得主?难道真的是多吃巧克力可以变聪明?显然这是个“伪命题”。巧克力销量同一个国家的富裕程度相关联,而高质量的科研项目同一国的经济实力有一定的关系,但这不意味着巧克力与诺贝尔将就存在关联。

我有高中同学,也有初中同学,他们都认识我,我的高中同学和初中同学就一定相识吗?

再来举个例子,下图是 星巴克门店数量各省市人均拥有公共图书馆藏量,这两者看似没有关联的数据放在一起,可以得到一条似乎很有关联的趋势线。

(截止到2017年数据)

“借鉴”巧克力决定决定诺贝尔奖得主的分析方法,我其实非常想配上“围绕图书馆的星巴克”或者写个“文艺驱动下的星巴克”此类标题,该图应该很有说服力。

然而直接把人均图书藏量星巴克关联起来得出一个结论将是很草率的做法。当我们把指标替换成人均GDP,你会发现它与人均图书藏量、星巴克门店数量都有正比例关系,这或许才是真正的因素?我不确定,因为这背后有着非常众多复杂的影响因素。

“没有数字,就无法理解这个世界,而单凭数字也无法理解。”

—— Hans Rosling 《事实》

/ 为了迎合期望或偏见

前一阵子,国家统计局报道称“2018年中国的人均国民总收入已达到了97232美元”。

一时间很多网友调侃“又被平均了”,实际上是误解,人均国民总收入的概念有点类似人均GDP,它除了居民,还包括政府、企业的收入。它与另一个指标 居民可支配收入 的概念是不同的。

2018年居民可支配收入的数字统计为 28,228元 (人民币),但这个数字显然不会引起读者的热议。

再来看一个今年比较火的话题“鹤岗房子白菜价”、“流浪到鹤岗,5万买套房”。媒体报道自然也是想尽办法突出这座城市的经济惨淡。

上图中的问题来自坐标的不当使用。再看下面这三张图,均是使用与上图相同的数据,但你可以通过调整坐标达到不同的呈现效果,图表的作者也自然会青睐自己中意的,帮助文章推波助澜。

我把这张图通过统一百分比的方式来还原,体验真实的变化幅度大小:

人们总是喜欢确认已经相信的东西,而且相信的力量往往大于用数据来确认的力量。

分享

“糟糕的设计、使用不可靠的数据、数据不充分、掩盖不确定性、引入歧途的图案、为了迎合期望或偏见”是来自美国迈阿密大学视觉新闻系主席 Alberto Cairo的新书《How Charts Lie》的核心框架。非常有幸第一时间读到原版,也极力推荐给广大的数据可视化爱好者。

我起初是想写一份读书笔记分享出来,但书中很多内容涉及美国政治、社会文化,索性学习领会了核心思路框架,自己找些中国的案例来应用。写着写着越发与作者找到许多共鸣,我即将发布的新书也有以批判型的视角来审视图表,甚至引用了一些相同的经典案例(考虑国内较慢的出版发行流程,我们两人的创作时间应该也是不谋而合)

套用一位书评者的话:“我希望生活在一个不必掌握这些图表阅读技能的世界,但我们在这里,是的,你也在。”

文尾再放两个彩蛋GDP作品:

“巧克力决定决定诺贝尔奖得主”“文艺驱动下的星巴克”两个案例的分析方法相似,但我相信大多数人会更容易理解“经济发展的代价”这张图,GDP与污水排放量两者的关联或许已经在你的认知里,只不过当你没有看到这张图表的时候,这种概念是模糊的、沉睡的,我利用图表把它“唤醒”。

人们总是喜欢确认已经相信的东西,即使这最后一张作品只是为了确认而作,也希望能够激发一些澎湃的热情。

0 人点赞