pandas.DataFrame的groupby()方法的基本使用

Posted nsw0419

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas.DataFrame的groupby()方法的基本使用相关的知识,希望对你有一定的参考价值。

pandas.DataFrame的groupby()方法是一个特别常用和有用的方法。让我们快速掌握groupby()方法的基础使用,从此数据分析又多一法宝。

首先导入package:

import pandas as pd
import numpy as np

groupby的最基本操作

df = pd.DataFrame({A:[1,2,3,1],B:[2,3,3,6],C:[3,1,5,7]})
df

技术图片

 

 

 按照A列来进行分组(其实说白了就是将A列中重复的值和成同一个值,然后把A当成索引来进行重新的数据分组)

df.groupby(A).mean() #mean是取平均值

技术图片

df.groupby(A).sum() #sum是求和

技术图片

df.groupby([A]).first() #取第一个出现的数据

技术图片

df.groupby([A]).last() #取最后一个出现的数据

技术图片

 也可以按照多组进行分组

df.groupby([A,B]).sum()

技术图片

 

统计数据的数量 

size跟count的区别: size计数时包含NaN值,而count不包含NaN值

df = pd.DataFrame({A:[1,2,3,1],B:[2,3,3,6],C:[3,np.nan,5,7]})
df

技术图片

df.groupby([A]).count()

技术图片

df.groupby([A]).size()

技术图片

以上是关于pandas.DataFrame的groupby()方法的基本使用的主要内容,如果未能解决你的问题,请参考以下文章

在 groupby 之后在 pandas DataFrame 的列表变量中创建一个列表

Pandas DataFrame groupby,跨列计数和求和

Python pandas dataframe groupby 选择列

Pandas DataFrame Groupby 两列并获取计数

将 Pandas dataframe.groupby 结果写入 S3 存储桶

遇到问题--python--pandas--dataframe进行groupby之后导出数据to_excel内容为空