数据分析随笔(python及pandas及matplotlib查看数据)

Posted rayshaw13

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析随笔(python及pandas及matplotlib查看数据)相关的知识,希望对你有一定的参考价值。

笔记:

import pandas as pd

对于csv数据文件,利用pd.read_csv()打开,如train_data=pd.read_csv(\'\')

利用train_data.head()可以查看部分data

 

train_describe()可以得到统计数目,得到平均数、方差等特征(当然是针对数字类型的数据)

 

对于非数字类型的数据(字符型 数据),可以使用train_data[\'这里填带统计的标签\'].value_counts()统计分类数目

如下显示的结果对应的是:某一个标签为property_area,标签下有semiurban urban rural等三个类别,统计对应数目

 

 

import matplot.pyplot as plt

train_data[\'标签\'].hist(bins=50)

plt.show()

可以显示该标签下的数据分布,50表示y轴的间隔,以直方图显示,横轴表示数值范围,y轴表示数量

 

 

train_data.boxplot(column=\'标签\')

plt.show()

可以显示该标签下的数值分布,观察分布是否均衡

比如下图表示,数据分布并不均匀,有极值出现

 

 

df.boxplot(column=\'标签1\', by = \'标签2\')

plt.show()

可以将标签1下的数据再按照标签2进行数值分布绘制

如以下表示,已经按照受教育程度分类,受教育水平高的工资极值高,还能得到其他结论

 

注:在想要画图时,单独输入画图指令还不能显示图形,这时需要在另一行上输入plt.show()才可以,条件:import matplotlib.pyplot as plt

 

以上是关于数据分析随笔(python及pandas及matplotlib查看数据)的主要内容,如果未能解决你的问题,请参考以下文章

python之pandas简单介绍及使用

pandas常用函数说明及速查表

python pandas中describe()各项含义及求值

pandas介绍及环境部署

pandas读写MySQL数据库详解及实战

Python之pandas数据整理及分组统计