大数据分析:疫情源头指向美国农业人口!(下) Posted 2021-04-26 纯科学
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据分析:疫情源头指向美国农业人口!(下)相关的知识,希望对你有一定的参考价值。
今天一早(4月14日)撇了一眼罗克兰县的数据,感染率到2.52%了,离江汉区3倍的目标又进了一步
作为一个在大家心中没什么存在感的县,今天我们先详细对比下纽约和罗克兰县,让大家有更直观的了解。
首先经过观察中国、韩国、欧洲的数据,我们可以总结出一条规律:
从境外传入的传染性疾病,在境内爆发后,往往表现出发达地区疫情高于不发达地区,疫情在境内传播呈现由点到面的状态,且疫情爆发地感染率更高。
经过近三个月的媒体宣传,相信大家对于新冠这类传染疾病的传播也都有所了解。一个地方的疫情严重与否,受人口密度,
医疗条件 ,通勤方式,收入,住宿条件的影响。人口密度越高,人们接触的频次就越高,传播的概率就越大。医疗条件越差,相应的医疗保障缺失,感染人数也会越多。通勤方式越拥挤,通勤时间越长,感染的风险也越高,所以武汉封城停运公共交通。收入低的话有些人生病选择抗一抗,反而导致疫情加重。住的越拥挤,不同楼层之间的交叉感染也会导致感染率上升,大家还记得在电梯间的消毒水味道吧。
人口密度
罗克兰县 是555.7人/平方公里,纽约是10636.2
人/平方公里 ,纽约的人口密度接近罗克兰县的20倍, 我们从其它四方面对比罗克兰县和纽约市
首先医疗条件方面
罗克兰县 人均医生数量为301人每10万人,高于美国的平均210人每十万人的水平。医疗花费比美国平均水平高2.4%。
纽约
人均医生数量为
151人每
10万人,甚至低于美国的平均210人每十万人的水平,这个水平放在全美都算糟糕的了。人均医生数方面,罗克兰县完胜,几乎是纽约的两倍了。
医疗花费比美国平均水平高1.0%
。跟罗克兰县差距不明显。
自驾占了绝对多数,达到了70.3%的比例,加上5%在家办公的,通勤的时候不用接触他人的比例占到了75%以上。拼车和轨道交通的比例只有19.6%。
相比之下,纽约就更有大城市范了。22%的自驾,4.1%在家办公,拼车和轨道交通的占比达到了61.1%。56.5%轨道交通的比例甚至高于武汉。在通勤时间方面纽约的平均40.8分钟的水平也高于
罗克兰 的31.0分钟。
罗
克兰
县人均
的收入水平比纽约更高,所以即使生病了,也不用担心罗克兰县的居民因为没钱所以不去看病,因为相比纽约人,他们更有钱。
红线
与河围出来的位置
即
罗
克兰
县
红圈
圈出的位置是其最繁华的地方,我们放大看看住房条件
大家可以看看右上角,即使在最繁华的地方,市民的住房还是以
独栋别墅为主。 现在看看纽约的城市密度,在地图都是同样的两英里标尺的情况下,纽约密密麻麻。
我们同样放大局部看看
一栋栋高楼大厦,这么高的建筑物密度,完爆罗 克兰 县
纽约在有利于病毒传播的几个条件都胜过罗克兰县,罗克兰县即没有举办过大型体育赛事,也没有举办过大型的商展,而纽约作为国际化大都市,接触境外传入的病毒的风险也更高。在假设为中国源头的情况下,美国采取对中国封堵的措施不可谓不早,最早在加州机场发现的病例是在1月21日,1月30日停飞中国航班,2月3日禁止过去
14天到过中国的非美国人入境,从中国大陆返回的美国公民将接受健康检查和长达14天的隔离。美国在对中国这么严格的封堵的情况下,疫情依然爆发了。而像台湾、新加坡、甚至香港,同样的防控到目前为止疫情都还可控。而且奇怪的是纽约州3月份以前没数据。是不是感到很惊诧,要知道二月份意大利
疫情就炸了。纽约州是没能力检测呢还是故意不检测呢?
罗
克兰
县的感染率高于纽约让人感到匪夷所思,现在我们把视野放到美国全境,看看是不是会有更多的发现。
下面是美国各地的感染率图,颜色越深表示当地感染率越高,其中黄色圈起的是感染率超过1%的四个地方,分别是爱达荷州、路易斯安娜州、乔治亚州、和纽约州,红色圈起来的是美国前五大国际机场所在地。分别是旧金山、洛杉矶、芝加哥、华盛顿、纽约。感染率高的除了纽约其它三个地方大家都很少听到,而五大机场所在地大家耳熟能详。
这副地图呈现出的数据让人觉得不可思议的是美国五大国际机场所在地,也是美国最发达的5个市,他们的感染率除了一个纽约州以外其它都不超过
1
%,本该中国人入境美国最多的旧金山和洛杉矶感染率都偏低,甚至低于本州的水平。
而经济不发达的爱达荷州,人口密度只有6.04 人/平方公里,感染率更高,而且感染率最高的不是
爱达荷州
首府Boise,而是一个叫Blaine的县,感染率达到了2%的水平 。
这个主要人口集中在山谷里,人口不到12000的小县城,以农业、木材为主要经济来源的地方,跟中国的关联微乎其微的县城,用中国为源头怎么都无法解释感染率如此之高。中国现在的移民可不是满清时候的移民,跑去种地挖矿,干脏活累活。现在的移民要么是家里有钱的,要么是读书的尖子,谁都不愿选这鬼地方,跑山里去锯木头。
作为境外输入的病毒,从各大国际机场输入的概率更大。这样也就造成这些国际机场所在地,最有可能成为疫情爆发地。这也是我们现在全力围堵各口岸,防止境外输入的关键。美国的疫情数据完全不遵循境外输入的逻辑。别国境外输入的疫情爆发是发达地区感染更高,不发达地区感染率更低,而美国是爱荷华州(GDP全美排名39),路易斯安娜州(GDP全美排名23),乔治亚州(GDP全美排名第9),纽约州(GDP全美排名第3)的感染率更高,GDP排名前十的有7个缺席。
加州全美GDP排名第一,亚裔比例更是超过10%,相比纽约的5.5%的亚裔高了近一倍,芝加哥也是华人最喜欢的移民地,感染率反而偏低,而且按地理位置来讲,飞美国的华人更倾向选西海岸的加州而不是纽约,因为机票价格更便宜。然而爱达荷、路易斯安娜、乔治亚这些亚裔比率较低的地方,如果新冠病毒是源自中国的话这些地方应该感染率更低,结果反而是感染率更高。
作为
境外输入的病毒
,
在其国内爆发
呈现的是
由点到面
的形式。
这是符合我们对其他国家数据的观察的
。例如欧洲爆发的意大利,德国,法国,亚洲的中国,韩国。而
美国的疫情地图,
美国各地感染率
呈现的是
多点开花
状态。
且和其他国家不同的是美国各地感染情况
和经济的相关性不高,
和
出入境的机场
所在地相关性也不高
。
这
也不符合
境外输入病例的特征
。
通过分析美国的疫情地图种种不合逻辑的地方,参考他国的疫情数据,唯一能解释得是
新冠
非境外输入,而是美国本土产生。
只有假设新冠是美国本土产生,才可以解释出入境大的航空港感染率更低,跟中国关联更多的地方感染率更低,经济水平相对落后的地方感染率更高,跟中国关联更少的地方感染率更高。也就能说明为什么在对中国采取严控的措施以后,美国疫情还是爆发。为什么其它国家对中国也采取封堵措施后,结果还是迎来疫情大爆发,因为封堵的对象搞错了。
最后,分享下4月11日,美国华盛顿观察报的报道,大家可以细细品味下。
Data collected by the Centers for Disease Control and Prevention suggest the coronavirus has been present in the United States as early as December.
Coronavirus deaths in the San Francisco Bay Area in February and March are leading scientists to believe that the virus was present in California earlier than previously believed, according to the Los Angeles Times .
“The virus was freewheeling in our community and probably has been here for quite some time,” Dr. Jeff Smith, chief executive of Santa Clara County's government, told county leaders in a briefing.
“This wasn’t recognized because we were having a severe flu season,” Smith said. “Symptoms are very much like the flu. If you got a mild c ase of COVID, you didn’t really notice. You didn’t even go to the doctor. The doctor maybe didn’t even do it because they presumed it was the flu.”
Smith said Friday that data collected by the Centers for Disease Control and local health departments suggest that the virus was in California “a lot longer than we first believed,” likely since “back in December.”
There was very little community testing in California in January and February, which contributed to the uncertainty as to when exactly the virus first appeared.
“When public health [officials] tried to track down the start of the disease … we weren’t able to find, specifically, a contact,” Smith added. “That means the virus is in the community already — not, as was suspected by the CDC, as only in China and being spread from contact with China.”
疾病控制 与预防中心收集的数据表明,冠状病毒早在12月就已存在于美国。
在旧金山湾区在二月和三月冠状病毒死亡是顶尖的科学家认为,病毒在加州出席更早比以前认为, 根据 洛杉矶时报 。
圣克拉拉县政府首席执行官杰夫·史密斯(Jeff Smith)博士在简报中对县领导说:“该病毒在我们社区中随处可见,可能已经存在了一段时间。”
史密斯说:“这没有得到认可,因为我们的流感季节很严重。” 症状很像流感。 如 果您遇到轻微的COVID病例,您并不会真正注意到。你甚至都没有去看医生。医生可能甚至没有做,因为他们认为是流感。”
史密斯(Smith)周五说,疾病控制中心和当地卫生部门收集的数据表明,这种病毒在加利福尼亚的存在“比我们最初认为的要长得多”,很可能是从“ 12月开始”开始的。
一月和二月在加利福尼亚州进行的社区测试很少,这增加了该病毒何时确切出现的不确定性。
“当公共卫生(官员)试图追踪疾病的开始……我们无法找到具体的联系方式,”史密斯补充说。“这意味着该病毒已经存在于社区中,而不是像CDC所怀疑的那样,仅在中国并且通过与中国的接触而传播。”
即然美国的疫情数据用境外输入解释不通,我们就试着根据美国的疫情数据推理出美国疫情的真相。
这是美国今天跟新的疫情地图,按州县标识出了各地的感染率,数据颜色标识分五级,我们把所有本州感染率有超过三级以上的州名字用白色字体标注出来。黄色字体标识的州是美国GDP排名前十的但是本州不存在感染率超过三级的州,蓝色横线是美国人口前十的州但本州不存在感染率超过三级的州。
通过这张图我们发现,按常理本应当和疫情相关度最高的经济和人口因素,结果在美国的相关度不高,人口和经济排名前十的州感染率居然有五个州缺席,即美国人口最多经济最发达的十个州,有五个感染率偏低。
和经济、人口不相关,和五大航空城所在的城市不相关(见上篇分析),和华人聚集地不相关(见上篇分析),那会和什么相关呢?
正常来讲,人口聚集的地方疫情传播的快的速度也更快,娱乐业人口聚集较低,那我们看看美国的娱乐业跟疫情数据相关性高不高。
如果当一个地方贫困人口多的时候,医疗的缺乏,往往会导致感染率增高。那让我们来美国贫困人口的数据。
我们注意比较美国的贫困县和各地的疫情数据,发现相关性也不高。
我们回到原点,美国的数据经济差的反而疫情感染率高,从事什么行业,会让经济数据表现差呢?农业!经济对农业依赖的地方,GDP普遍高不了。因为第一产业带来的产值是没法跟第二产业第三产业相比的,这也符合我们的常识 。即然我们把线索指向了农业,那让我们来看看美国的农业数据。
上图是美国各州农场面积排名前十的表。对照疫情图,发现除了Wyoming(
怀俄明州
),有九个进入了感染率三级以上的清单。原来,美国疫情跟农业相关度很高。我们沿着这条线索,是不是能找到各州的农业跟疫情的关系。
上图绿色的标识为各州经济对农业依赖,浅绿为非都市区,深绿为都市区。在不考虑美国东北几个州的情况下,美国疫情的感染率跟各地对农业的依赖高度相关。即感染率偏高的地方绝大部分都能找到经济对农业依赖的县。
现在我们以新冠首先在美国农业人口中传播为前提,由于农业人口在美国人口占比较小(小于百分之二,不到三百万),农业人口本身流动性较低,加之农场人口密度低,更加抑制了病毒的传播。
所以我们现在可以解释以下问题:
一、为什么别的国家跟经济人口相关性更高的感染率,在美国则常常看到美国各州经济不发达的地方感染率更高。因为别国是疫情由外向内输入,入境口岸一般在比较发达的地方,所以爆发地和经济人口相关性很高。
二、为什么本该华人更多的地方感染率更高的逻辑却变成了华人更高的地方感染率更低。因为按中国源头说的话,华人多的感染率更高是合理的,但正因为中国不是源头,源头跟美国的农业高度相关,而现在的移民美国的华人从事农业的少之有少,所以各地感染率和华人相关性很低。
三、为什么美国五大国际机场所在城市感染率除了纽约意外都只有二级水平(偏低)。因为感染源是美国本土的农业产业,而美国五大国际机场所在城市经济对农业依赖度不高,所以感染率偏就很正常了。
四、为什么别国传染呈现的是由点到面,美国呈现的是多点开花的状态。由于别国是境外输入,所以输入点感染率更高。美国是本土跟农业高度相关的感染,农业产业的分布是比较散的,所以有多点开花的状态。
五、为什么别国传播速度那么快,美国如果作为源头的话,应该早就积累到一个庞大的数量了。因为疫情源于美国的农业产业,其从业人口本身就少,和别国爆发的大城市相比人员流动性还是人口密度都更低,传播速度天然就要慢的多。
美国从事农业的相关人员更易受新病毒的感染,本质上和我们判断华南海鲜市场是源头的逻辑是一样的。因为这些从业人员天然接触到未知病毒的风险就更高。
现在我们来解释下美国的东北地区的疫情。美国目前疫情最严重的地方,就在东北,疫情的感染率都在三级以上。这是为什么呢?美国人口密度最高的十个州除了俄亥俄州,其余九个都在东北,加上纽约州经济在美国的前三,美国的娱乐业在美国东北高度发达,所以美国东北在美国全境来讲是最适合疫情传播的,这就和其它国家的疫情情况相吻合了,并且纽约市感染率的周边县区疑问在以美国为新冠的源头并且和美国农业相关前提下就能完美解释了。
我们基于美国疫情跟农业高度相关论断,去做一些推理。由于农业的农产品出口运输以海运为主,所以美国海港的感染率会偏高,又由于中美去年的毛衣战,去年美国部分的农产品出口转巴西再出口到我国,所以美国西部的的感染率不高,南部港口的感染率更高。而德克萨斯州南部,路易斯安那州南部,佛罗里达州南部的感染率的疫情图都能解释了。
并且由于农业的特点,存在农忙和农闲的情况。农闲会导致病毒传染率降低,农忙会加速病毒的传染。现在我们就去寻找证据。
上图是美国CDC公布的
美国门诊流感样疾病监测网络 (ILINet),由于美国年年爆发流感,所以CDC每年都会检测流感季的数据(从10月到新一年的4月在美国称为流感季)。从图中可以看出今年流感的水平在历史上来讲都算高的,可以跟2009年的H1N1和2017年的大流感相比。而跟往年数据不同的是,今年的ILINet曲线在高峰位置走出了从来都没见过的W型。在52周(年底)到达高峰,在然后在今年的第2周第3周的时候探底,然后第5到开始又赢来一个高峰,到第9周又探底,然后到12周又开始升高。流感可不像股市存在做多做空的力量在互相博弈,光用普通的流感不能解释美国今年ILINet的数据。当我们用新冠疫情跟美国的农业相关相关去解释的话,由于农忙时节结束,所以疫情下降,经过四周到了美国的圣诞节,节日的聚集活动让疫情加重,节日结束ILINet曲线又开始下降,等到了农活开始的时候,疫情又开始上升,等到美国开始封城了,疫情又开始下降,我们把曲线出现的高峰和低峰的时间点往前推两到三周,这跟我们刚刚的说明在时间点上都高度吻合,即11月底的农闲,12月底的圣诞,然后二月初农忙开始,3月中旬开始封城。
而且即使把视角放到某一个经济对农业依赖度高的州,也能证明我们的判断
这是北达科它州今年的数据,也符合我们对ILINetW峰值W型的判断。
再来看看往年的数据
而像去年的就没呈现ILINetW峰值W型
并且前年的也没有。
因此,CDC的数据从侧面印证了我们的判断,
所有到
现在
我们
可
以更大胆的
下
结论了,
新冠就是 源于美国 ,并且和美国的农业 高度相关
。
现在通过这个结论我们能解释前面的所有疑问,但是中国爆发的为什么是武汉而不是北、上、广、深?由于武汉最早的病例时间追溯到11月份,我们把搜索时间定在11月,搜索关键字定为武汉和农业,令人吃惊的结果出来,在去年11月下旬,在武汉举办了第十六届中国武汉农业博览会
而举办地武汉国际会展中心距离华南海鲜市场不到5公里,乘坐公交车时间不过15分钟,如果美国从事农业参展商来了武汉在汉口坐车,会不会参观下和自己行业高度相关的华南海鲜市场呢?而这样的逻辑是不是更加合理,可能性更大?
后记:在写新冠疫情源头的系列文章的时候,几次都想放弃,作为理科生缺乏文字功底,写这么长的文章本来就够吃力了,本来英语水平就够呛但为了保证资料、数据的真实性,又要翻阅大量的英文网站,加上你懂的原因英文网站的访问速度经常让人感到崩溃,但是每每看到墙外的跳梁小丑侮辱我们中国肺炎武汉肺炎的时候,心里就感到不忿。武汉作为病毒的受害者,为控制疫情做出的巨大牺牲,本该享受鲜花和掌声,却要承受着不该属于她的侮辱和歧视。为了因疫情牺牲的英雄,为了大家配合防控疫情所做的努力,我都不能选择放弃。新冠疫情源头的真相应该被大家知道,武汉和湖北为中国为世界做出的牺牲应该被知道,美国甩锅的无耻嘴脸更应该被知道。
以上是关于大数据分析:疫情源头指向美国农业人口!(下)的主要内容,如果未能解决你的问题,请参考以下文章
商业智能大数据在农业信息化中的应用
BI商业智能大数据在农业生产中的应用
风口解析 | 现代食品 | 002 | 现代农业
大佬解读刘石:什么是农业大数据?
带大家用40行python代码实现一个疫情地图
什么是农业大数据,农业大数据的作用