pandas 数据处理

Posted earendil

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas 数据处理相关的知识,希望对你有一定的参考价值。

1、 查看数值数据的整体分布情况

datafram.describe()

输出:

age
count 1463.000000
mean 22.948052
std 8.385384
min 13.000000
25% 17.000000
50% 20.000000
75% 27.000000
max 64.000000

其中的25%,50%这些是百分位数。

 百分位数的定义为:

      统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值数值大小排列。如,处于p%位置的值称第p百分位数。
 例子:
百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。
百分位数则是对应于百分位的实际数值
 
2、pandas的dataframe修改字段的类型
 
比如age字段是string,但是要改成int类型   user_age_df[[‘age‘]].astype(float)
 

 

 

 
 








以上是关于pandas 数据处理的主要内容,如果未能解决你的问题,请参考以下文章

python pandas multiindex片段

pandas 求两个时间差, 转化秒,判断时间差是否大于阈值

Python:用于元组的 Pandas DataFrame

超全超香,数据分析与数据挖掘最频繁使用代码合集来了

pandas 文本处理大全(附代码)

超级有用的9个PHP代码片段