Python 疫情数据可视化(爬虫+数据可视化)(Jupyter环境)
Posted 城南望余雪
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 疫情数据可视化(爬虫+数据可视化)(Jupyter环境)相关的知识,希望对你有一定的参考价值。
目录
1 项目背景
2019年底,肺炎(COVID-19)在全球爆发,后来被确认为新型冠状病毒(SARS-CoV-2)所引发的。
2 项目目标
我们在爬取到公开数据的条件下,开展了一些可视化工作希望能够帮助大家更好理解现在疫情的发展情况,更有信心一起战胜肆虐的病毒。
3 项目分析
3.1数据获取
3.1.1分析网站
先去先找到今天要爬取的目标数据:
https://news.qq.com/zt2020/page/feiyan.htm#/
3.1.2找到数据所在url
url='https://api.inews.qq.com/newsqa/v1/query/inner/publish/modules/list?modules=statisGradeCityDetail,diseaseh5Shelf'
3.1.3获取数据
通过爬虫获取它的json数据:
url='https://api.inews.qq.com/newsqa/v1/query/inner/publish/modules/list?modules=statisGradeCityDetail,diseaseh5Shelf'
response = requests.get(url, verify=False)
json_data = response.json()['data']
china_data = json_data['diseaseh5Shelf']['areaTree'][0]['children'] # 列表
3.1.4解析数据
通过一个for循环对我们的列表进行取值然后再存入到我们的字典中
data_set = []
for i in china_data:
data_dict =
# 地区名称
data_dict['province'] = i['name']
# 新增确认
data_dict['nowConfirm'] = i['total']['nowConfirm']
# 死亡人数
data_dict['dead'] = i['total']['dead']
# 治愈人数
data_dict['heal'] = i['total']['heal']
data_set.append(data_dict)
3.1.5保存数据
df = pd.DataFrame(data_set)
df.to_csv('yiqing_data.csv')
3.2数据可视化
3.2.1读取数据
df2 = df.sort_values(by=['nowConfirm'],ascending=False)[:9]
df2
3.2.2各地区确诊人数与死亡人数情况条形图
bar = (
Bar()
.add_xaxis(list(df['province'].values)[:6])
.add_yaxis("死亡", df['dead'].values.tolist()[:6])
.add_yaxis("治愈", df['heal'].values.tolist()[:6])
.set_global_opts(
title_opts=opts.TitleOpts(title="各地区确诊人数与死亡人数情况"),
datazoom_opts=[opts.DataZoomOpts()],
)
)
bar.render_notebook()
3.2.3各地区现有确诊人数地图
china_map = (
Map()
.add("现有确诊", [list(i) for i in zip(df['province'].values.tolist(),df['nowConfirm'].values.tolist())], "china")
.set_global_opts(
title_opts=opts.TitleOpts(title="各地区确诊人数"),
visualmap_opts=opts.VisualMapOpts(max_=600, is_piecewise=True),
)
)
china_map.render_notebook()
3.2.4各地区现有确诊人数分布环形图
pie = (
Pie()
.add(
"",
[list(i) for i in zip(df2['province'].values.tolist(),df2['nowConfirm'].values.tolist())],
radius = ["10%","30%"]
)
.set_global_opts(
legend_opts=opts.LegendOpts(orient="vertical", pos_top="70%", pos_left="70%"),
)
.set_series_opts(label_opts=opts.LabelOpts(formatter="b: c"))
)
pie.render_notebook()
3.2.4各地区现有确诊人数分布折线图
line = (
Line()
.add_xaxis(list(df['province'].values))
.add_yaxis("治愈", df['heal'].values.tolist())
.add_yaxis("死亡", df['dead'].values.tolist())
.set_global_opts(
title_opts=opts.TitleOpts(title="死亡与治愈"),
)
)
line.render_notebook()
项目源码:
import requests # 发送网络请求模块
import json
import pprint # 格式化输出模块
import pandas as pd # 数据分析当中一个非常重要的模块
from pyecharts import options as opts
from pyecharts.charts import Bar,Line,Pie,Map,Grid
import urllib3
from pyecharts.globals import CurrentConfig, NotebookType
# 配置对应的环境类型
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_NOTEBOOK
CurrentConfig.ONLINE_HOST='https://assets.pyecharts.org/assets/'
urllib3.disable_warnings()#解决InsecureRequestWarning: Unverified HTTPS request is being made to host 'api.inews.qq.com'. 问题
url = 'https://api.inews.qq.com/newsqa/v1/query/inner/publish/modules/list?modules=statisGradeCityDetail,diseaseh5Shelf'
response = requests.get(url, verify=False)
json_data = response.json()['data']
china_data = json_data['diseaseh5Shelf']['areaTree'][0]['children'] # 列表
data_set = []
for i in china_data:
data_dict =
# 地区名称
data_dict['province'] = i['name']
# 新增确认
data_dict['nowConfirm'] = i['total']['nowConfirm']
# 死亡人数
data_dict['dead'] = i['total']['dead']
# 治愈人数
data_dict['heal'] = i['total']['heal']
data_set.append(data_dict)
df = pd.DataFrame(data_set)
df.to_csv('yiqing_data.csv')
df2 = df.sort_values(by=['nowConfirm'],ascending=False)[:9]
df2
# bar = (
# Bar()
# .add_xaxis(list(df['province'].values)[:6])
# .add_yaxis("死亡", df['dead'].values.tolist()[:6])
# .add_yaxis("治愈", df['heal'].values.tolist()[:6])
# .set_global_opts(
# title_opts=opts.TitleOpts(title="各地区确诊人数与死亡人数情况"),
# datazoom_opts=[opts.DataZoomOpts()],
# )
# )
# bar.render_notebook()
# china_map = (
# Map()
# .add("现有确诊", [list(i) for i in zip(df['province'].values.tolist(),df['nowConfirm'].values.tolist())], "china")
# .set_global_opts(
# title_opts=opts.TitleOpts(title="各地区确诊人数"),
# visualmap_opts=opts.VisualMapOpts(max_=600, is_piecewise=True),
# )
# )
# china_map.render_notebook()
# pie = (
# Pie()
# .add(
# "",
# [list(i) for i in zip(df2['province'].values.tolist(),df2['nowConfirm'].values.tolist())],
# radius = ["10%","30%"]
# )
# .set_global_opts(
# legend_opts=opts.LegendOpts(orient="vertical", pos_top="70%", pos_left="70%"),
# )
# .set_series_opts(label_opts=opts.LabelOpts(formatter="b: c"))
# )
# pie.render_notebook()
line = (
Line()
.add_xaxis(list(df['province'].values))
.add_yaxis("治愈", df['heal'].values.tolist())
.add_yaxis("死亡", df['dead'].values.tolist())
.set_global_opts(
title_opts=opts.TitleOpts(title="死亡与治愈"),
)
)
line.render_notebook()
Python采集全球疫情数据并做可视化分析
嗨嗨,大家好~
今天真的是刚睡醒就知道RNG八人确诊,这年头出国打个比赛都这么不容易,希望早日康复~
唉,今天就教你们
如何用Python采集全球疫情数据,并做可视化分析
知识点:
- 爬虫基本流程
- requests 发送请求
- re 正则表达式
- json 结构化数据解析
开发环境:
-
python 3.8: 解释器
-
pycharm: 代码编辑器
-
requests 发送请求
-
pyecharts 绘制图表
-
pandas 读取数据
基本原理:
模拟成 浏览器/客户端 向 服务器 发送请求的过程
思路:
找到数据来源
- 静态的数据: 你在右键点击查看网页源代码 能够找到的数据
- 动态的数据: 你在右键点击查看网页源代码 找不到的数据
实现爬虫代码的流程:
- 发送请求 (通过 代码的方式访问上方的数据来源/访问网站)
- 获取数据
- 解析数据
- 保存数据
采集代码
import requests # 发送请求
import csv # 内置模块 不需要你安装的
mode=‘a’: 追加写入
encoding=‘utf-8’: 编码方式 / gbk
newline=‘’: 数据空行
f = open('疫情数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['name', 'confirm', 'confirmAdd', 'dead', 'heal', 'nowConfirm'])
headers 伪装 公开数据
url = 'https://api.inews.qq.com/newsqa/v1/automation/modules/list?modules=FAutoCountryConfirmAdd,WomWorld,WomAboard'
- 发送请求
response = requests.post(url)
<Response [200]>: 200, 请求成功了
- 获取数据
.text: 直接获取文本内容
.json(): 字典 键值对的方式把数据取出来
.content: 获取二进制内容, 视频 / 音频 / 图片
json_data = response.json()
- 解析数据
结构非常的标准
结构化的数据 json数据 直接通过字典键值对的方式取值 [‘data’] [‘WomAboard’]
非结构化数据 网页源代码 css/xpath/re
python学习交流Q群:770699889 ###
WomAboard = json_data['data']['WomAboard']
# 0, 224
for i in range(0, 225):
name = WomAboard[i]['name']
confirm = WomAboard[i]['confirm']
confirmAdd = WomAboard[i]['confirmAdd']
dead = WomAboard[i]['dead']
heal = WomAboard[i]['heal']
nowConfirm = WomAboard[i]['nowConfirm']
print(name, confirm, confirmAdd, dead, heal, nowConfirm)
- 保存数据
csv_writer.writerow([name, confirm, confirmAdd, dead, heal, nowConfirm])
f.close()
可视化代码
import pandas as pd # 做表格操作的模块
from pyecharts.charts import Map # 绘图的模块
from pyecharts import options as opts
python学习交流Q群:770699889 ###
name_map =
'Singapore Rep.': '新加坡',
'Dominican Rep.': '多米尼加',
'Palestine': '巴勒斯坦',
'Bahamas': '巴哈马',
'Timor-Leste': '东帝汶',
'Afghanistan': '阿富汗',
'Guinea-Bissau': '几内亚比绍',
"Côte d'Ivoire": '科特迪瓦',
'Siachen Glacier': '锡亚琴冰川',
"Br. Indian Ocean Ter.": '英属印度洋领土',
'Angola': '安哥拉',
'Albania': '阿尔巴尼亚',
'United Arab Emirates': '阿联酋',
'Argentina': '阿根廷',
'Armenia': '亚美尼亚',
'French Southern and Antarctic Lands': '法属南半球和南极领地',
'Australia': '澳大利亚',
'Austria': '奥地利',
'Azerbaijan': '阿塞拜疆',
'Burundi': '布隆迪',
'Belgium': '比利时',
'Benin': '贝宁',
'Burkina Faso': '布基纳法索',
'Bangladesh': '孟加拉国',
'Bulgaria': '保加利亚',
'The Bahamas': '巴哈马',
'Bosnia and Herz.': '波斯尼亚和黑塞哥维那',
'Belarus': '白俄罗斯',
'Belize': '伯利兹',
'Bermuda': '百慕大',
'Bolivia': '玻利维亚',
'Brazil': '巴西',
'Brunei': '文莱',
'Bhutan': '不丹',
'Botswana': '博茨瓦纳',
'Central African Rep.': '中非共和国',
'Canada': '加拿大',
'Switzerland': '瑞士',
'Chile': '智利',
'China': '中国',
'Ivory Coast': '象牙海岸',
'Cameroon': '喀麦隆',
'Dem. Rep. Congo': '刚果(金)',
'Congo': '刚果(布)',
'Colombia': '哥伦比亚',
'Costa Rica': '哥斯达黎加',
'Cuba': '古巴',
'N. Cyprus': '北塞浦路斯',
'Cyprus': '塞浦路斯',
'Czech Rep.': '捷克',
'Germany': '德国',
'Djibouti': '吉布提',
'Denmark': '丹麦',
'Algeria': '阿尔及利亚',
'Ecuador': '厄瓜多尔',
'Egypt': '埃及',
'Eritrea': '厄立特里亚',
'Spain': '西班牙',
'Estonia': '爱沙尼亚',
'Ethiopia': '埃塞俄比亚',
'Finland': '芬兰',
'Fiji': '斐',
'Falkland Islands': '福克兰群岛',
'France': '法国',
'Gabon': '加蓬',
'United Kingdom': '英国',
'Georgia': '格鲁吉亚',
'Ghana': '加纳',
'Guinea': '几内亚',
'Gambia': '冈比亚',
'Guinea Bissau': '几内亚比绍',
'Eq. Guinea': '赤道几内亚',
'Greece': '希腊',
'Greenland': '格陵兰',
'Guatemala': '危地马拉',
'French Guiana': '法属圭亚那',
'Guyana': '圭亚那',
'Honduras': '洪都拉斯',
'Croatia': '克罗地亚',
'Haiti': '海地',
'Hungary': '匈牙利',
'Indonesia': '印度尼西亚',
'India': '印度',
'Ireland': '爱尔兰',
'Iran': '伊朗',
'Iraq': '伊拉克',
'Iceland': '冰岛',
'Israel': '以色列',
'Italy': '意大利',
'Jamaica': '牙买加',
'Jordan': '约旦',
'Japan': '日本',
'Kazakhstan': '哈萨克斯坦',
'Kenya': '肯尼亚',
'Kyrgyzstan': '吉尔吉斯斯坦',
'Cambodia': '柬埔寨',
'Korea': '韩国',
'Kosovo': '科索沃',
'Kuwait': '科威特',
'Lao PDR': '老挝',
'Lebanon': '黎巴嫩',
'Liberia': '利比里亚',
'Libya': '利比亚',
'Sri Lanka': '斯里兰卡',
'Lesotho': '莱索托',
'Lithuania': '立陶宛',
'Luxembourg': '卢森堡',
'Latvia': '拉脱维亚',
'Morocco': '摩洛哥',
'Moldova': '摩尔多瓦',
'Madagascar': '马达加斯加',
'Mexico': '墨西哥',
'Macedonia': '马其顿',
'Mali': '马里',
'Myanmar': '缅甸',
'Montenegro': '黑山',
'Mongolia': '蒙古',
'Mozambique': '莫桑比克',
'Mauritania': '毛里塔尼亚',
'Malawi': '马拉维',
'Malaysia': '马来西亚',
'Namibia': '纳米比亚',
'New Caledonia': '新喀里多尼亚',
'Niger': '尼日尔',
'Nigeria': '尼日利亚',
'Nicaragua': '尼加拉瓜',
'Netherlands': '荷兰',
'Norway': '挪威',
'Nepal': '尼泊尔',
'New Zealand': '新西兰',
'Oman': '阿曼',
'Pakistan': '巴基斯坦',
'Panama': '巴拿马',
'Peru': '秘鲁',
'Philippines': '菲律宾',
'Papua New Guinea': '巴布亚新几内亚',
'Poland': '波兰',
'Puerto Rico': '波多黎各',
'Dem. Rep. Korea': '朝鲜',
'Portugal': '葡萄牙',
'Paraguay': '巴拉圭',
'Qatar': '卡塔尔',
'Romania': '罗马尼亚',
'Russia': '俄罗斯',
'Rwanda': '卢旺达',
'W. Sahara': '西撒哈拉',
'Saudi Arabia': '沙特阿拉伯',
'Sudan': '苏丹',
'S. Sudan': '南苏丹',
'Senegal': '塞内加尔',
'Solomon Is.': '所罗门群岛',
'Sierra Leone': '塞拉利昂',
'El Salvador': '萨尔瓦多',
'Somaliland': '索马里兰',
'Somalia': '索马里',
'Serbia': '塞尔维亚',
'Suriname': '苏里南',
'Slovakia': '斯洛伐克',
'Slovenia': '斯洛文尼亚',
'Sweden': '瑞典',
'Swaziland': '斯威士兰',
'Syria': '叙利亚',
'Chad': '乍得',
'Togo': '多哥',
'Thailand': '泰国',
'Tajikistan': '塔吉克斯坦',
'Turkmenistan': '土库曼斯坦',
'East Timor': '东帝汶',
'Trinidad and Tobago': '特里尼达和多巴哥',
'Tunisia': '突尼斯',
'Turkey': '土耳其',
'Tanzania': '坦桑尼亚',
'Uganda': '乌干达',
'Ukraine': '乌克兰',
'Uruguay': '乌拉圭',
'United States': '美国',
'Uzbekistan': '乌兹别克斯坦',
'Venezuela': '委内瑞拉',
'Vietnam': '越南',
'Vanuatu': '瓦努阿图',
'West Bank': '西岸',
'Yemen': '也门',
'South Africa': '南非',
'Zambia': '赞比亚',
'Zimbabwe': '津巴布韦',
'Comoros': '科摩罗'
pieces = [
"min": 1000000,
"min": 100000, "max": 999999,
"min": 10000, "max": 99999,
"min": 1000, "max": 9999,
"min": 100, "max": 999,
"min": 0, "max": 99,
]
df = pd.read_csv('疫情数据.csv')
# 转成列表
name = df['name']
confirm = df['confirm']
dead = df['dead']
world_map = (
Map()
.add('累计确诊', [list(i) for i in zip(name, confirm)], 'world', name_map=name_map, is_map_symbol_show=False)
.add('死亡人数', [list(i) for i in zip(name, dead)], 'world', name_map=name_map, is_map_symbol_show=False)
.set_series_opts(
label_opts=opts.LabelOpts(is_show=False)
)
.set_global_opts(
title_opts=opts.TitleOpts(title='世界疫情情况'),
visualmap_opts=opts.VisualMapOpts(max_=1000000, is_piecewise=True, pieces=pieces)
)
)
world_map.render('1.html')
文章看不懂,我专门录了对应的视频讲解,本文只是大致展示,完整代码和视频教程点击本行字即可
好啦,今天的分享到这里就结束了 ~
如果需要视频学习的可以在b站搜索 :Python小圆
对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦
觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/
以上是关于Python 疫情数据可视化(爬虫+数据可视化)(Jupyter环境)的主要内容,如果未能解决你的问题,请参考以下文章