Covid19:一种新的数据可视化
Posted 不樊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Covid19:一种新的数据可视化相关的知识,希望对你有一定的参考价值。
一句话简介:仅看确诊数据是不够的,因为确诊数受到测试数的直接影响。
视频链接:https://www.bilibili.com/video/BV1NQ4y1T7sy/
well这个链接需要手动复制,因为微信不给放其他视频网站的链接。
是的,我要开始做奇怪的视频的了。B站搜索trAI_lab,或者管子trAI lab。
因为时间有限(都是本社畜周末断断续续做完的),只用了美国各州的数据做例子。
为什么视频非常简陋,文章排版也很丑呢?因为我的合作者沉溺于看综艺和吸猫,放了我鸽子。所以从写代码到录视频到剪辑都是我。暂时也没有中文字幕,也许有一天他良心发现会去加字幕,并且送我一只布偶或者中华田园犬。
平常我们看到的数据更新,可能很多是以上这样的地图,或者line plot。我觉得这些图有它的意义,但是缺了一个很重要的参考数据,即测试数。
在测试数据少的情况下,检测结果(确诊数、确诊率)的统计意义不大。
下图是一个例子:灰色为未检测,绿色为检测结果阴性,红色为检测结果阳性。随着检测数增加,我们对整体的感染情况才能有比较准确的把握。在检测数据少的时候,如果要用样本估算整体,是非常不可信的。
以上只是一个最简单的模型,而实际情况要复杂的多,也不能直接用阳性率估算群体感染情况。以上动图隐藏的假设在实际情况中是不存在的。比如在增加检测人数的时候,病毒也在不断扩散,群体中的感染量不是常数。另外也无法假设每天的检测是个随机抽测,因为实际情况可能会是症状更明显或者风险更高的人先检测。而每一个batch里面的分布也是不一样的。
这个例子只是为了说明,当检测量非常少的时候,你看到的低阳性率或者低确诊数,没有多大的意义。
理解确诊数据,需要和检测数一同来看。我们提出的以下这种方式。纵坐标是阳性率(确诊阳性 / 检测数),横坐标是人口检测比率,球的大小和累计确诊数成正比,每个球是一个州。
比如这是4月5日的情况(视频里有动态介绍,这个东西呢本来是个html,点上去能看到是哪个州还有对应数据,但是现在就只能截图了)
如果稍微调整一下,每种颜色代表一个州,球的大小变成了当日新增确诊,每个相同颜色的球代表那个州在某一天的情况,颜色越深日期越新(越往右日期也越新,因为横坐标是累计数据,不可能往左移),那我们就能看到不同的州过去一段时间的变化情况。
到上周末,纽约的情况还是不好,测试数增加但阳性率没有下降,每日新增确诊也没有减少。唯一的好迹象是阳性率似乎不上升了。麻省虽然从人数和阳性率看都不算最高,但是测试数增加,阳性率反而很明显的上升了,这不是个好事,说明病毒扩散的速度比人类跟踪的速度快。
纽约州
东部几个州的对比。
而情况如果在好转,我们会看到什么呢?以下是韩国的图。韩国做了什么就不用介绍了吧。短期内加大测试数,而在增加测试的同时,阳性率和每日新增确诊都很快出现了下降趋势。所以如果美国这些州好转的话,也需要看到这样的图。
Stay home.
以上是关于Covid19:一种新的数据可视化的主要内容,如果未能解决你的问题,请参考以下文章
Kibana:使用 Elastic Stack 来分析 COVID 数据