大数据文摘出品
来源:fivethirtyeight
编译:青柠、Andy
外国友人表示,这些天来,只要你在Twitter上浏览视频,几乎都会碰到COVID-19图表。人们试图用这些图表来判断疫情是否已经“达到顶峰”。
看到这些图表并寻找乐观的理由是很诱人的。“这条曲线好像弯曲了!”或者,“新增病例数似乎比昨天要少!”
但这不是那么容易。你看到的每张图表都反映了一系列决定,包括要绘制哪个数据、使用哪个数据源、如何比较国家或州、如何显示数据,这些决定可以极大地改变你所看到的以及可以从图表中安全获取的内容。要真正了解某个地方是否已达到其感染曲线的峰值,你需要对图表和底层数据有足够的理解力。而且,理想情况下,你需要查看多个图表。
那么,当你试图解读所有这些数据可视化时,应该记住什么呢?
图表显示了哪个数据?
在知道图表是否显示峰值之前,首先需要知道它显示的是什么数据。你查看的是总确诊病例?住院总数?总死亡人数?还是每天的计数呢?这些数字中的每一个都提供了信息,但每个都不完整,并且不可互换。
确诊病例
根据确诊病例的图表很难判断某个地方是否达到峰值。显然,我们希望看到新冠病毒检验阳性的人数有所下降。但是,每当你看到确诊病例的信息时,请记住它在很大程度上依赖于检测的数量。任何地方只要不检测就不会发现病例。在美国尤其如此,据报道,相比报告症状的人数,已检测的人数微不足道。
肯特州立大学(Kent State University)流行病学教授Tara C. Smith说:“当我们看到曲线平稳时,可能只是因为我们我们的检测能力达到了极限,而不是确诊病例真正趋于平缓。”换句话说,曲线变平缓可能只是意味着检测数量跟不上感染数量。而且,随着一些州希望恢复某些经济活动,它们可能会保持较低的检测水平,以使病例数量不会增加。
因此,让我们立即改变对这些图表的理解:这些不是病例数量的可视化,而是确诊病例数量的可视化,在大多数国家,这个数字严重低估了真实的患病人数。
即使检测足够,检测本身仍然需要是准确的。有报道称,某些测试可能会出现高得惊人的假阴性率,也就是说,患病的人至少在某些时候会得到阴性的测试结果。
即使所有病例都以某种方式进行了检测,从一个人被感染到他接受检测之间仍有一定的时间差。从被感染到出现症状(潜伏期),再到这些症状严重到让人去看医生,及进行检查,都需要花费时间。尽管这种时间差可能因人而异,但确诊病例图表上的数字(即使在最好的情况下)也是滞后的。
这种滞后也是每日新增病例的图表可能会引起误解的原因之一。当天发生的变化实际上可能是一两个星期前开始的变化。而且,收集和报告数据时可能会发生很多奇怪的事情,从而人为地压低或夸大一天的数据。
如果所有这些因素保持不变,那么问题都可以解决。就是说,如果人们通常在患病过程的在同一时间接受检测,医疗人员对检测的管理方式没有改变,检测本身没有改变,报告结果的滞后性也没有改变……那么即使确诊病例数并不能直接反映出感染数量,确诊病例的趋势仍可提供有关病毒传播的信息。毕竟,我们只是在图上寻找趋势的变化。
但问题在于我们不知道这些是否保持不变。因此,很难从一个像确诊病例这样有噪声的指标中收集到有用的信号。
死亡人数
统计确诊病例是令人担忧的。如果只是计算死亡人数呢?当然,这是没有问题的,每个地方都已经记录了死亡人数,所以这些数字应该更可靠。这可能是对的,但很难确定。
为了追踪新冠疫情的死亡人数,你仍然需要确认一个死亡的人是死于COVID-19,但目前还不清楚这该如何做到。有些人在死前或死后都没有接受检测,即使看起来他们可能患有这种疾病,COVID-19也不会出现在他们的死亡证明上。对于那些没有死在医院的人来说,确定死因可能更具挑战性,尤其是在冠状病毒检测稀缺且仅供生者使用的情况下。随着这种流行病的蔓延,一些国家已经改变了统计医院外死亡人数的方法,这使得对这种趋势的解读更加困难。
医院和政府也有动机少报COVID-19死亡人数,因为死亡人数会使这些机构看起来很糟糕。例如,美国中央情报局(CIA)不相信中国政府官方公布的感染和死亡人数。
住院人数
住院是最准确的数据吗?例如,纽约市已开始公布住院人数。假设这些数据收集正确,我们可能会认为这张图表向我们提供了最可靠的趋势。如果它达到峰值,即使大多数COVID-19患者从未住院,也表明感染人数已达到峰值。
但如果随着疫情的发展,住院标准有所变化,会发生什么呢?如果医院因没有病床而提高入院门槛,例如,在大流行初期呼吸急促足以使人入院,但后期由于资源匮乏医护人员开始将这些患者拒之门外。那么,显示住院数的图表趋于平稳只是表示医疗系统正在接近饱和,而不是感染数发生了变化。(同样的道理也适用于越来越多的人被告知除非绝对必要,否则不要去医院。)
数据是如何被展示的?
你看的图表类型也很重要。如果图表使用对数刻度,则更难看到峰值,而许多COVID-19可视化都使用对数刻度。使用对数刻度意味着图表的纵轴不会像你期望的那样,0到1,000之间的距离与10,000到11,000之间的距离相同。
相反,纵轴上等间隔的刻度代表数字的增长倍数,也就是说,如果y轴上的一格从100到1000,则相同大小的下一格将从1000到10000,之后将是10000到100000,即使数字以越来越大的幅度跃升,这些数字之间的刻度大小仍保持不变。
这种技巧有很多优点,比如可以比较病例较少和病例较多的曲线。(相反,如果刻度为线性,则显示刻度的顶端必然意味着很难看到较小的值。)
另一方面,使用对数刻度意味着数值较高时,图表中的细微波动反映出原始数据的巨大差异。这使得从图表中直观地推断峰值变得更加困难。
当然,当图表显示不同地区的数据时,无论所比较的是不同的国家还是不同的州,所有这些担忧就更加严重了。这些图表与展示一个地方的图表有着相同的问题,但是这个问题要乘以图表上的地区个数。
接下来如何分析?
假设根据上述指标之一,曲线确实在向下弯曲。这意味着什么?首先,你可能要看看其他指标。如果确诊病例、住院和死亡人数三项指标都在下降,并且所进行的检测总数没有下降,那么很有可能确实是好消息。还有一个更好的指标(尽管仍然存在问题)是所有检测中呈阳性的比例,它试图在某种程度上考虑到检测的因素(尽管它没有说明被测试的人是否发生变化)。(如果病例数仍在增长,即使发病率较低,也将继续增加本就负担沉重的医疗体系的压力。)
正如纽约大学基于代理的建模实验室负责人Joshua Epstein在一次网络研讨会上所说:“对于任何传染性疾病,高峰之后都会有大量传播。”图表中达到峰值并不意味着你可以再次外出,这意味着疫情已经达到最严重的程度。即使情况有所好转,你仍需要在一段时间内格外小心。
即使你相信情况确实在好转——新增病例在减少,医院远没达到人满为患,病人正在好转——当限制解除时你会怎么做?德国在疫情暴发初期检测率较高,病例数和死亡人数相对较低,已经提出了逐步重新开放的计划。但是,如果已经成功避免了高峰,并且相对较少的人患病,那可能意味着第二个、可能更大的高峰即将到来。即使在感染高峰之后,危险仍可能上升。
相关报道:
https://fivethirtyeight.com/features/one-chart-isnt-going-to-tell-you-when-the-pandemic-peaked/