Python对职业人群体检数据进行分析与可视化(附源码 超详细)
Posted showswoller
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python对职业人群体检数据进行分析与可视化(附源码 超详细)相关的知识,希望对你有一定的参考价值。
需要源码和数据集请点赞关注收藏后评论区留言私信~~~
职业人群体检数据分析
有的职业危害因素会对人体血液等系统产生影响。下面针对一次职业人群体检的部分数据进行分析
实现步骤如下
1:导入模块
2:获取数据
导入待处理数据testdata.xls并显示前五行
3:分析数据
首先查看数据类型 表结构 并统计各个字段空缺值的个数
接下来删除全为空的列以及身份证号为空的数据
删除全为空的列
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
函数作用:删除含有空值的行或列¶
axis:维度,axis=0表示index行,axis=1表示columns列,默认为0
how:"all"表示这一行或列中的元素全部缺失(为nan)才删除这一行或列,"any"表示这一行或列中只要有元素缺失,就删除这一行或列
thresh:一行或一列中至少出现了thresh个才删除。
subset:在某些列的子集中选择出现了缺失值的列删除,不在子集中的含有缺失值得列或行不会删除(有axis决定是行还是列)
inplace:刷选过缺失值得新数据是存为副本还是直接在原数据上进行修改
删除身份证号为空的数据
将“开始从事某工作年份”规范为4位数字年份,如“2018”,并将列名修改为“参加工作时间
增加列“工龄”(体检年份-参加工作时间)和“年龄”(体检时间-出生年份)两列
查看待处理是否有缺失值 然后删除所有缺失值
然后可以看到参加工作时间之一列的缺失值已经删除,同时也看到体检年份还有38个缺失值 也进行删除
身份证号,参加工作时间以及体检年份的数据类型都是object,需要进行类型转换,统一转化为int64类型,另外,体检年份这一列有很多异常数据,很多年份后都有年字,对体检年份数据进行时间提取
增加工龄和年龄这两列
统计不同性别的白细胞计数均值 并画出柱状图
统计不同年龄段的白细胞计数,并画出柱状图,年龄段划分为:小于或等于30岁,31-40岁,41-50岁以及大于50岁4个
经过上面这一系列工作,可以很清楚的看出数据的一些分布特征 有助于后续的解决方案
代码
部分代码如下 需要全部代码请点赞关注收藏后评论区留言私信~~~
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
%matplotlib inline
df = pd.read_excel("testdata.xls")#这个会直接默认读取到这个Excel的第一个表单
data =df.head()#默认读取前5行的数据
data
df.info()
df.dtypes
df.shape
df.isnull().sum()
df.dropnaaxis=1, how='all',inplace= True)#将全部项都是nan的列删除
df.head()
df.dropna(how='any',subset=['身份证号'],inplace= True)
df.isnul().sum()
df1 = df
df.shape
df.开始从事某工作年份 = df.开始从事某工作年份.str[0:4]
df.rename(columns="开始从事某工作年份": "参加工作时间",inplace=True)
df.head()
df.isnull().sum()
df1 = df.dropna(subset=['参加工作时间'],how='any')
df1.isnull().sum()
df1.isnull().sum()
df2 = df1.dropna(subset=['体检年份'],how='any')
# ()
df2.isnull().sum()
#参加工作时间转换为int64类型
#首将体检年份转换为str类型
data['体检年份'] = data.体检年份.astype('str')
#切片取前4位值之后再将体检年份转换为int64类型
data.体检年份 = data.体检年份.str[0:4].astype("int64")
#取身份证的第4位-第7位,并转换为int64类型
data["出生年份"] = data.身份证号.str[4:8].astype('int64')
d.head()
data.参加工作时间 = data.参加工作时间.astype('int64')
data['体检年份'] = data.体检年份.astype('str')
data.体检年份 = data.体检年份.str[0:4].astype("int64")
data["出生年份"] = data.身份证号.str[4:8].astype('int64')
data.head()
data = data.eval('工龄 = 体检年份-参加工作时间')
data = data.eval("年龄= 体检年份- 出生年份")
data.head()
import matplotlib
matplotlib.rcParams['font.size'] = 15
matplotlib.rcParams['font.family'] = 'SimHei'
# mean.plot(kind='bar') #series.plot(kind='bar')
mean.plot.bar()
plt.xticks(rotation=0)
plt.ylabel("白细胞均值")
data['年龄段'] = pd.cut(data.年龄, bins=[0,30,40,50, 100])
count = data.groupby('年龄段')['白细胞计数'].mean()
count
count.plot(kind = "bar")
plt.xticksotation=30)
plt.ylabel("白细胞计数均值")
创作不易 觉得有帮助请点赞关注收藏~~~
Python机器学习数据可视化讲解及性别周末与购物间可视化实战(超详细 附源码)
需要源码和数据集请点赞关注收藏后评论区留言私信~~~
数据可视化
数据可视化通过直观的方式增加对数据的理解,帮助提取有用特征。
1.特征取值分布
特征的取值分布情况可以为分析特征提供重要信息。一般采用直方图和饼图来可视化取值分布。Python扩展库Matplotlib提供了多种画图方法。
2.离散型特征与离散型标签的关系
样本特征的值与该样本的标签的关系,是机器学习最为关心的事情。通过可视化,可以直观地展现标签值随某特征取值的变化而变化的情况。
3.连续型特征与离散型标签的关系
观察连续型特征与离散型标签的关系,常用盒图(Box plots)。
对于单个变量,盒图描述的是其分布的四分位图:上边缘 上四分位数 中位数 下四分位数和下边缘,上边缘是最大数,上四分位数是由大到小排在四分之一的那个值,中位数是排在中间的那个数,下四分位数是排在四分之三的那个数,下边缘是最小数,单个变量的盒图便于观察变量值的分布中心 扩展和偏移,另外还可以发现离群的异常值的存在
4.离散型特征与连续型标签的关系
密度图(Density plots)也可用来可视化类似关系。 在密度图中,将每个离散的特征值画一条曲线,多条曲线放在一起进行比较,每个离散特征值的曲线的横坐标设为连续的标签值,纵坐标设为对应标签纸的密度
5.连续型特征与连续型标签的关系
连续型特征与连续型标签的关系是常用的画图方式,即将输入、输出值对应在平面上作点,可采用matplotlib和pandas中的scatter()函数。
下面是部分绘图函数与其对应函数方法
可视化性别、周末与购物之间关系
可以采用马赛克图来可视化离散型特征值与离散型标签的关系
下面给出一个简单示例,其中可视化了性别与购物之间关系的可视化,以及周末与购物之间关系的可视化
部分数据如下 性别1男 0女 是否购物 1购物 0不购物
[2020, 11, 1, 1, 1],
[2020, 11, 1, 0, 1],
[2020, 11, 1, 0, 1],
[2020, 11, 1, -1, 1],
[2020, 11, 1, 1, 1],
[2020, 11, 1, 0, 1],
[2020, 11, 1, 0, 0],
[2020, 11, 1, 0, 1],
[2020, 11, 2, 1, 0],
[2020, 11, 2, 1, 1],
],
[2020, 11, 7, 0, 1],
[2020, 11, 8, 1, 1],
[2020, 11, 8, 0, 1],
[2020, 11, 9, 0, 0],
[2020, , 11, 1, -1],
[2020, 11, 12, 0, 0]]
性别与购物关系的马赛克图如下
周末与购物之间关系如下
部分代码如下
import datetime # 导入datetime模块,该模块用来处理与日期和时间有关的计算
# 定义一个判断是否为周末的函数
def isweekend( date ):
theday = datetime.date( date[0], date[1], date[2] ) # 创建一个date对象
if theday.isoweekday() in 6, 7 : # 如果date是周末则返回1,否则返回0
return 1
else:
return 0
# 是否周末的特征,性别,是否购物三项数据
train_set1 = []
for i in range(len(train_data)):
weekend = isweekend(train_data[i][:3])
train_set1.append( [weekend, train_data[i][3], train_data[i][4]] )
wk = df[0].astype('str').apply(lambda x: '周末' if x=='1' else '非周末')
man = df[1].astype('str').apply(lambda x: '男' if x=='1' else '女')
label = df[2].astype('str').apply(lambda x: '购物' if x=='1' else '不购物')
#print(label)
mosaic_data1 = pd.concat([man, label], axis=1)
#print(mosaic_data)
mosaic(data=mosaic_data1, index=[1, 2], gap=0.01, title=u'性别与购物的关系')
创作不易 觉得有帮助请点赞关注收藏~~~
以上是关于Python对职业人群体检数据进行分析与可视化(附源码 超详细)的主要内容,如果未能解决你的问题,请参考以下文章
Python机器学习数据可视化讲解及性别周末与购物间可视化实战(超详细 附源码)
数据可视化应用数据统计分析的显著性标注(附Python和R语言代码)
机器学习之利用线性回归预测波士顿房价和可视化分析影响房价因素实战(python实现 附源码 超详细)