年鉴表格-数据可视化分析

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了年鉴表格-数据可视化分析相关的知识,希望对你有一定的参考价值。

导入科学计算库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
warnings.filterwarnings('ignore')
# pd.options.display.max_columns = None  #列数
# pd.options.display.max_rows = 18     #行数
pd.set_option('expand_frame_repr', False)  # 数据超过总宽度后,是否折叠显示
#支持中文 
#解决中文显示问题 
plt.rcParams['font.sans-serif'] = ['KaiTi']  # 指定默认字体 
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
os.path
<module 'ntpath' from 'D:\\\\Anaconda3\\\\lib\\\\ntpath.py'>
factors = []
for i in os.listdir('./data/年鉴表格/'):
    factors.append(os.path.splitext(i)[0])
factors
['农业机械总动力',
 '农作物总播种面积',
 '农用化肥施用量折合',
 '农用柴油使用',
 '农药使用',
 '夏粮单位面积产量',
 '夏粮总面积',
 '大中型拖拉机动力',
 '大中型拖拉机数量',
 '小型拖拉机动力',
 '小型拖拉机数量',
 '有效灌溉面积',
 '秋粮单位面积产量',
 '秋粮总面积',
 '粮食作物总播种面积',
 '粮食单位面积产量',
 '联合收割机动力',
 '联合收割机数量']

获取数据

18个excel表格???我要疯了,推荐使用上面的os模块,下面的强烈不推荐!

# 指标:农用大中型拖拉机动力(万千瓦)
tractor_power = pd.read_excel('data/年鉴表格/大中型拖拉机动力.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:农用大中型拖拉机数量(台)
tractor_count = pd.read_excel('data/年鉴表格/大中型拖拉机数量.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:小型拖拉机动力(万千瓦)
small_tractor_power = pd.read_excel('data/年鉴表格/小型拖拉机动力.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:小型拖拉机数量(台)
small_tractor_count = pd.read_excel('data/年鉴表格/小型拖拉机数量.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:联合收割机数量(台)
combine_harvester_count = pd.read_excel('data/年鉴表格/联合收割机数量.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:联合收割机动力(万千瓦)
combine_harvester_power = pd.read_excel('data/年鉴表格/联合收割机动力.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:粮食单位面积产量(公斤/公顷)
grain_output_per_area = pd.read_excel('data/年鉴表格/粮食单位面积产量.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:粮食作物播种面积(千公顷)
grain_acreage = pd.read_excel('data/年鉴表格/粮食作物总播种面积.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:农药使用量(万吨)
pesticide_usage = pd.read_excel('data/年鉴表格/农药使用.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:农业机械总动力(万千瓦)
total_power_of_machinery = pd.read_excel('data/年鉴表格/农业机械总动力.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:农用柴油使用量(万吨)
diesel_consumption = pd.read_excel('data/年鉴表格/农用柴油使用.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:农用化肥施用折纯量(万吨) Yield reduction of agricultural fertilizer application
fertilizer_application = pd.read_excel('data/年鉴表格/农用化肥施用量折合.xls', skiprows=3, skipfooter=1, index_col='地区')
# 指标:农作物总播种面积(千公顷) Total sown area of crops
total_sown_area_of_crops = pd.read_excel('data/年鉴表格/农作物总播种面积.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:秋粮单位面积产量(公斤/公顷)Yield of autumn grain per unit area
autumn_grain_per_area = pd.read_excel('data/年鉴表格/秋粮单位面积产量.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:秋收粮食播种面积(千公顷)
autumn_grain_total_area = pd.read_excel('data/年鉴表格/秋粮总面积.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:夏收粮食单位面积产量(公斤/公顷) Summer harvest grain output per unit area
summer_grain_per_area = pd.read_excel('data/年鉴表格/夏粮单位面积产量.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:夏收粮食播种面积(千公顷)
summer_grain_total_area = pd.read_excel('data/年鉴表格/夏粮总面积.xls', skiprows=3, skipfooter=2, index_col='地区')
# 指标:有效灌溉面积(千公顷)
effective_irrigation_area = pd.read_excel('data/年鉴表格/有效灌溉面积.xls', skiprows=3, skipfooter=1, index_col='地区')

数据合并

tractor_power.shape
(31, 43)
# 多级行列索引,并为每项索引分别命名
tractor_count.index
Index(['北京市', '天津市', '河北省', '山西省', '内蒙古自治区', '辽宁省', '吉林省', '黑龙江省', '上海市',
       '江苏省', '浙江省', '安徽省', '福建省', '江西省', '山东省', '河南省', '湖北省', '湖南省', '广东省',
       '广西壮族自治区', '海南省', '重庆市', '四川省', '贵州省', '云南省', '西藏自治区', '陕西省', '甘肃省',
       '青海省', '宁夏回族自治区', '新疆维吾尔自治区'],
      dtype='object', name='地区')
tractor_count.columns
Index(['2020年', '2019年', '2018年', '2017年', '2016年', '2015年', '2014年', '2013年',
       '2012年', '2011年', '2010年', '2009年', '2008年', '2007年', '2006年', '2005年',
       '2004年', '2003年', '2002年', '2001年', '2000年', '1999年', '1998年', '1997年',
       '1996年', '1995年', '1994年', '1993年', '1992年', '1991年', '1990年', '1989年',
       '1988年', '1987年', '1986年', '1985年', '1984年', '1983年', '1982年', '1981年',
       '1980年', '1979年', '1978年'],
      dtype='object')
tractor_count.values
array([[    nan,   4314.,   4700., ...,   7705.,   6496.,   5568.],
       [    nan,  13163.,  13799., ...,  12819.,  11574.,   9622.],
       [    nan, 280018., 272957., ...,  42133.,  37237.,  28119.],
       ...,
       [    nan,  13086.,  12200., ...,   6364.,   5545.,   4999.],
       [    nan,  42142.,  38700., ...,   5811.,   5465.,   4874.],
       [    nan, 369983., 336245., ...,  29208.,  23549.,  20135.]])
list(zip(range(3), range(3),range(3)))
[(0, 0, 0), (1, 1, 1), (2, 2, 2)]
tractor_count.values.shape
(31, 43)
tractor_power.values.shape
(31, 43)
# value = []
# for i, j, k in zip(tractor_count.values, tractor_power.values, ):
#     value.append(i)
#     value.append(j)
help(zip)
Help on class zip in module builtins:

class zip(object)
 |  zip(*iterables) --> A zip object yielding tuples until an input is exhausted.
 |  
 |     >>> list(zip('abcdefg', range(3), range(4)))
 |     [('a', 0, 0), ('b', 1, 1), ('c', 2, 2)]
 |  
 |  The zip object yields n-length tuples, where n is the number of iterables
 |  passed as positional arguments to zip().  The i-th element in every tuple
 |  comes from the i-th iterable argument to zip().  This continues until the
 |  shortest argument is exhausted.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.
tractor_count.index
Index(['北京市', '天津市', '河北省', '山西省', '内蒙古自治区', '辽宁省', '吉林省', '黑龙江省', '上海市',
       '江苏省', '浙江省', '安徽省', '福建省', '江西省', '山东省', '河南省', '湖北省', '湖南省', '广东省',
       '广西壮族自治区', '海南省', '重庆市', '四川省', '贵州省', '云南省', '西藏自治区', '陕西省', '甘肃省',
       '青海省', '宁夏回族自治区', '新疆维吾尔自治区'],
      dtype='object', name='地区')
factors
['农业机械总动力',
 '农作物总播种面积',
 '农用化肥施用量折合',
 '农用柴油使用',
 '农药使用',
 '夏粮单位面积产量',
 '夏粮总面积',
 '大中型拖拉机动力',
 '大中型拖拉机数量',
 '小型拖拉机动力',
 '小型拖拉机数量',
 '有效灌溉面积',
 '秋粮单位面积产量',
 '秋粮总面积',
 '粮食作物总播种面积',
 '粮食单位面积产量',
 '联合收割机动力',
 '联合收割机数量']
tractor_count.values.shape
(31, 43)
value = []
for i in range(31):
    value.append(total_power_of_machinery.values[i])
    value.append(total_sown_area_of_crops.values[i])
    value.append(fertilizer_application.values[i])
    value.append(diesel_consumption.values[i])
    value.append(pesticide_usage.values[i])
    value.append(summer_grain_per_area.values[i])
    value.append(summer_grain_total_area.values[i])
    value.append(tractor_power.values[i])
    value.append(tractor_count.values[i])
    value.append(small_tractor_power.values[i])
    value.append(small_tractor_count.values[i])
    value.append(effective_irrigation_area.values[i])
    value.append(autumn_grain_per_area.values[i])
    value.append(autumn_grain_total_area.values[i])
    value.append(grain_acreage.values[i])
    value.append(grain_output_per_area.values[i])
    value.append(combine_harvester_power.values[i])
    value.append(combine_harvester_count.values[i])
len(value)
558
31*18
558

数据合并完成

index = pd.MultiIndex.from_product([tractor_count.index, factors], names=['Province', 'Factors '])
columns = pd.MultiIndex.from_product([tractor_count.columns], names=['Years'])
data = pd.DataFrame(value, index=index, columns=columns)
tractor_count.head()
2020年2019年2018年2017年2016年2015年2014年2013年2012年2011年...1987年1986年1985年1984年1983年1982年1981年1980年1979年1978年
地区
北京市NaN431447006900730070006600650074008864...12170.011664.011319.010859.09855.09032.08284.07705.06496.05568.0
天津市NaN131631379915500154001500015800156001500014300...12523.012860.012525.011870.012654.012795.013175.012819.011574.09622.0
河北省NaN280018272957314700298700274300254600234300213700193374...34881.036074.037341.042239.045962.046234.045012.042133.037237.028119.0
山西省NaN104580987001308001381001307001190001072009780088900...32908.033526.034861.036938.037285.035641.034402.032667.028925.024280.0
内蒙古自治区NaN354049316476796800767400723800671500623400579400547661...42860.040929.037942.032883.033318.032673.033212.033202.030644.012002.0

5 rows × 43 columns

data
Years2020年2019年2018年2017年2016年2015年2014年2013年2012年2011年...1987年1986年1985年1984年1983年1982年1981年1980年1979年1978年
ProvinceFactors
北京市农业机械总动力NaN122.84125.65133.51144.45186.05195.76207.72241.10265.20...388.00345.0320.16291.11261.91242.05244.85234.62212.34189.32
农作物总播种面积NaN88.55103.79120.94145.55172.14194.64237.29278.03298.62...598.00605.0618.00633.00638.00642.00644.00657.00677.00691.00
农用化肥施用量折合NaN6.177.298.559.6510.5311.6412.7813.6713.84...10.009.08.209.8010.8010.8010.1011.0011.300.00
农用柴油使用NaN1.801.932.252.532.783.363.703.883.96...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
农药使用NaN0.230.260.270.300.320.360.390.390.39...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
.....................................................................
新疆维吾尔自治区秋粮总面积NaN1134.701182.441167.801186.771231.431181.921170.791088.40969.77...576.50577.6569.60627.40667.60687.60705.49791.00882.20936.40
粮食作物总播种面积NaN2203.612219.632295.852405.282403.412303.412256.892150.112050.14...1788.201810.11861.701993.201988.202035.102082.902177.902270.702335.30
粮食单位面积产量NaNNaN6776.916467.016453.857885.957596.797651.907057.106959.18...3288.223025.92679.302493.502281.002002.401872.401783.801733.001605.80
联合收割机动力NaNNaNNaNNaNNaNNaNNaNNaN58.1453.35...19.0018.018.3917.8016.7716.4014.7714.71NaNNaN
联合收割机数量NaN15000.0013200.0011800.0011100.009700.009000.007800.007021.006800.00...3467.003431.03387.003557.003517.003626.003472.003335.003011.002617.00

558 rows × 43 columns

data.loc['北京市'].shape
(18, 43)
data.loc['北京市']
Years2020年2019年2018年2017年2016年2015年2014年2013年2012年2011年...1987年1986年1985年1984年1983年1982年1981年1980年1979年1978年
Factors
农业机械总动力NaN122.84125.65133.51144.45186.05195.76207.72241.10265.20...388.00345.00320.16291.11261.91242.05244.85234.62212.34189.32
农作物总播种面积NaN88.55103.79120.94145.55172.14194.64237.29278.03298.62...598.00605.00618.00633.00638.00642.00644.00657.00677.00691.00
农用化肥施用量折合NaN6.177.298.559.6510.5311.6412.7813.6713.84...10.009.008.209.8010.8010.8010.1011.0011.300.00
农用柴油使用NaN1.801.932.252.532.783.363.703.883.96...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
农药使用NaN0.230.260.270.300.320.360.390.390.39...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
夏粮单位面积产量NaN5427.605274.945451.755363.795352.895176.665171.875257.874882.03...4117.503826.503824.103716.303448.902571.602993.102111.003005.203178.30
夏粮总面积NaN8.2010.1411.4515.9620.7823.5836.2252.2058.14...184.30186.30192.20200.50200.10200.30203.80215.50229.60234.40
大中型拖拉机动力NaNNaNNaNNaNNaNNaNNaNNaN30.7536.74...55.0052.0049.5046.7841.7837.9534.2531.7026.4022.79
大中型拖拉机数量NaN4314.004700.006900.007300.007000.006600.006500.007400.008864.00...12170.0011664.0011319.0010859.009855.009032.008284.007705.006496.005568.00
小型拖拉机动力NaNNaNNaNNaNNaNNaNNaNNaN8.1612.95...35.0031.0028.8321.4817.1416.9217.4918.5318.3117.27
小型拖拉机数量NaN2124.002200.001400.001300.001400.002000.002400.007300.0011653.00...42000.0037000.0035000.0028000.0023000.0023000.0024000.0025000.0025000.0023000.00
有效灌溉面积NaN109.24109.67115.48128.47137.35143.11153.02207.54209.33...338.00337.27338.40342.67343.27339.33341.27340.33340.80341.73
秋粮单位面积产量NaN6345.106328.716296.956351.956156.435355.456307.956093.376174.64...4867.914638.984580.204432.734021.244097.003665.644216.183147.703410.83
秋粮总面积NaN38.3045.5055.4069.5883.6796.59122.70141.67151.24...310.40313.00319.20322.60329.50327.07326.00333.24330.40326.90
粮食作物总播种面积NaN46.5255.6466.8485.54104.45120.17158.91193.87209.38...494.70499.30511.40523.10529.60527.30529.80548.70560.00561.30
粮食单位面积产量NaNNaN6136.666152.226167.595996.575320.366049.045868.405815.69...4588.644335.804296.104157.603804.803517.703406.903390.003089.303313.50
联合收割机动力NaNNaNNaNNaNNaNNaNNaNNaN17.5617.00...8.005.004.413.822.502.062.061.45NaNNaN
联合收割机数量NaN1000.001100.001300.001500.001500.001800.001900.002200.002167.00...2059.001767.001517.001417.00798.00736.00652.00535.00389.00174.00

18 rows × 43 columns

缺失值处理

data.dropna(axis=1)
ProvinceFactors
北京市农业机械总动力
农作物总播种面积
农用化肥施用量折合
农用柴油使用
农药使用
......
新疆维吾尔自治区秋粮总面积
粮食作物总播种面积
粮食单位面积产量
联合收割机动力
联合收割机数量

558 rows × 0 columns

所以不能直接删除缺失值,考虑填充!

调用 fillna()方法对数据表中的所有缺失值进行填充,在 fillna()方法中输入要填充的值。 还可以通过 method 参数使用前一个数和后一个数来进行填充。

data.T.fillna(method='ffill',axis=0).fillna(method='bfill', axis=0).T
Years2020年2019年2018年2017年2016年2015年2014年2013年2012年2011年...1987年1986年1985年1984年1983年1982年1981年1980年1979年1978年
ProvinceFactors
北京市农业机械总动力122.84122.84125.65133.51144.45186.05195.76207.72241.10265.20...388.00345.00320.16291.11261.91242.05244.85234.62212.34189.32
农作物总播种面积88.5588.55103.79120.94145.55172.14194.64237.29278.03298.62...598.00605.00618.00633.00638.00642.00644.00657.00677.00691.00
农用化肥施用量折合6.176.177.298.559.6510.5311.6412.7813.6713.84...10.009.008.209.8010.8010.8010.1011.0011.300.00
农用柴油使用1.801.801.932.252.532.783.363.703.883.96...10.0010.0010.0010.0010.0010.0010.0010.0010.0010.00
农药使用0.230.230.260.270.300.320.360.390.390.39...0.730.730.730.730.730.730.730.730.730.73
.....................................................................
新疆维吾尔自治区秋粮总面积1134.701134.701182.441167.801186.771231.431181.921170.791088.40969.77...576.50577.60569.60627.40667.60687.60705.49791.00882.20936.40
粮食作物总播种面积2203.612203.612219.632295.852405.282403.412303.412256.892150.112050.14...1788.201810.101861.701993.201988.202035.102082.902177.902270.702335.30
粮食单位面积产量6776.916776.916776.916467.016453.857885.957596.797651.907057.106959.18...3288.223025.902679.302493.502281.002002.401872.401783.801733.001605.80
联合收割机动力58.1458.1458.1458.1458.1458.1458.1458.1458.1453.35...19.0018.0018.3917.8016.7716.4014.7714.7114.7114.71
联合收割机数量15000.0015000.0013200.0011800.0011100.009700.009000.007800.007021.006800.00...3467.003431.003387.003557.003517.003626.003472.003335.003011.002617.00

558 rows × 43 columns

data = data.T.fillna(method='ffill',axis=0).fillna(method='bfill', axis=0).T
# data.iloc[:, 0] = data.iloc[:, 1]
np.any(data.isnull())
False

缺失值处理完毕!

  • 缺失值处理此处存有问题,由于数据不完整缺失值过多,向前向后填充不是一个好的办法。
  • 如果填充每一行数据的均值,又不太合理,因为这是多年的数据变化,我们在自己填充势必会对实验造成较大影响。
  • 因为随着我国经济43年的快速发展,map些因素存在上升或下降的情况,填充其实意义不大!
  • 整体来看,个人浅显的认识,该数据可以作为练手,如果想要真正的分析多因素影响还需较完整的数据集。

保存数据集缓存,以后直接加载即可!

# 数据集缓存地址
# cache_path = os.path.join(CACHE_DIR, "ratings_matrix.cache")  # 路径拼接
cache_path = './data/preprocessingdata.cache'
# 加载缓存中
# ratings_matrix = pd.read_pickle(cache_path)
# print("从缓存加载数据集完毕")
data.to_pickle(cache_path)

相关性分析

# 仅对河南省进行分析
henan = data.loc['河南省']
henan.T
Factors农业机械总动力农作物总播种面积农用化肥施用量折合农用柴油使用农药使用夏粮单位面积产量夏粮总面积大中型拖拉机动力大中型拖拉机数量小型拖拉机动力小型拖拉机数量有效灌溉面积秋粮单位面积产量秋粮总面积粮食作物总播种面积粮食单位面积产量联合收割机动力联合收割机数量
Years
2020年10356.9714713.98666.72100.1010.726549.405718.701283.47373074.03830.163139675.05328.955881.305015.9010734.546096.52880.25295000.0
2019年10356.9714713.98666.72100.1010.726549.405718.701283.47373074.03830.163139675.05328.955881.305015.9010734.546096.52880.25295000.0
2018年10204.4614783.35692.79103.9211.366262.795770.111283.47353481.03830.163184500.05288.695909.715135.9710906.086096.52880.25287700.0
2017年10038.3214732.53706.70108.8412.076472.355741.311283.47458500.03830.163175400.05273.635427.855173.8210915.135977.25880.25278400.0
2016年9854.9614902.72715.03112.4412.716331.875730.241283.47432700.03830.163295000.05242.925227.785489.3111219.555791.68880.25265500.0
2015年11710.0814879.73716.09114.7012.876262.965648.601283.47402300.03830.163396200.05210.645353.565477.7011126.305815.24880.25241500.0
2014年11476.8114731.54705.75115.9512.996055.485606.831283.47378100.03830.163462600.05101.155129.875338.1410944.975604.03880.25221300.0
2013年11149.9614586.50696.37113.4313.015907.745543.701283.47357800.03830.163513200.04969.115333.465153.7210697.435631.07880.25200200.0
2012年10872.7314386.89684.43112.2512.835881.575494.661283.47338500.03830.163539400.05205.635398.194939.9010434.565652.73880.25177100.0
2011年10515.7914373.32673.71111.0712.875776.145459.351129.08310700.03721.703557600.05150.445392.864785.0710244.435597.12769.96157800.0
2010年10195.8914320.79655.15107.9212.495805.345390.69969.55274445.03797.503586100.05080.965289.424636.3110027.005566.79671.93143760.0
2009年9817.8414235.70628.67104.1712.145792.305351.21816.84246921.03806.103655300.05033.035303.094539.419890.625567.77561.91124326.0
2008年9429.2714403.71601.6899.2411.915719.155319.97693.22202608.03775.003636700.04989.205338.354426.919746.875546.19431.03102530.0
2007年8718.7114308.50569.6896.4211.805642.715266.75532.81149400.03422.003239700.04955.845352.334261.779528.525512.84355.8093200.0
2006年8309.1313995.53540.4393.0411.165627.335242.71437.04127730.03266.553095800.04918.805131.584213.239455.945406.44307.7784840.0
2005年7934.2313922.73518.1489.7910.515190.055027.33366.33110840.03119.772984520.04864.124781.274126.089153.415005.78251.6771750.0
2004年7521.1213789.66493.1686.8610.125104.574938.67435.0097000.02943.622828600.04829.084313.694031.408970.074749.13229.5565960.0
2003年6953.1713684.36467.8984.589.874771.414896.67285.4487200.02717.942598500.0以上是关于年鉴表格-数据可视化分析的主要内容,如果未能解决你的问题,请参考以下文章

pdfplumber读取拆分pdf内容和表格

Python疫情数据分析,并做数据可视化展示

日常《中国统计年鉴》与《中国金融年鉴》数据表爬虫(附1985-2020所有Excel资源)

日常《中国统计年鉴》与《中国金融年鉴》数据表爬虫(附1985-2020所有Excel资源)

Pandas数据分析:快速图表可视化各类操作详解+实例代码

Pandas数据分析:快速图表可视化各类操作详解+实例代码

(c)2006-2024 SYSTEM All Rights Reserved IT常识