将组平均值分配给 python/pandas 中的每一行
Posted
技术标签:
【中文标题】将组平均值分配给 python/pandas 中的每一行【英文标题】:Assign group averages to each row in python/pandas 【发布时间】:2018-08-23 05:08:09 【问题描述】:我有一个数据框,我希望根据商店和所有商店计算平均值。我创建了代码来计算平均值,但我正在寻找一种更有效的方法。
DF
Cashier# Store# Sales Refunds
001 001 100 1
002 001 150 2
003 001 200 2
004 002 400 1
005 002 600 4
DF-Desired
Cashier# Store# Sales Refunds Sales_StoreAvg Sales_All_Stores_Avg
001 001 100 1 150 290
002 001 150 2 150 290
003 001 200 2 150 290
004 002 400 1 500 290
005 002 600 4 500 290
我的尝试 我创建了两个额外的数据框,然后进行了左连接
df.groupby(['Store#']).sum().reset_index().groupby('Sales').mean()
【问题讨论】:
【参考方案1】:与transform
和assign
一起使用:
df.assign(Sales_StoreAvg = df.groupby('Store#')['Sales'].transform('mean'),
Sales_All_Stores_Avg = df['Sales'].mean()).astype(int)
输出:
Cashier# Store# Sales Refunds Sales_All_Stores_Avg Sales_StoreAvg
0 1 1 100 1 290 150
1 2 1 150 2 290 150
2 3 1 200 2 290 150
3 4 2 400 1 290 500
4 5 2 600 4 290 500
【讨论】:
【参考方案2】:我认为需要GroupBy.transform
来填充由mean
聚合值填充的新列:
df['Sales_StoreAvg'] = df.groupby('Store#')['Sales'].transform('mean')
df['Sales_All_Stores_Avg'] = df['Sales'].mean()
print (df)
Cashier# Store# Sales Refunds Sales_StoreAvg Sales_All_Stores_Avg
0 1 1 100 1 150 290.0
1 2 1 150 2 150 290.0
2 3 1 200 2 150 290.0
3 4 2 400 1 500 290.0
4 5 2 600 4 500 290.0
【讨论】:
以上是关于将组平均值分配给 python/pandas 中的每一行的主要内容,如果未能解决你的问题,请参考以下文章
Python Pandas:将 DataFrame 组的最后一个值分配给该组的所有条目
如何将组均值与单个观察值进行比较并创建新的 TRUE/FALSE 列?
Python Pandas 如何将 groupby 操作结果分配回父数据框中的列?
Python Pandas:如何分组并为组中的所有项目分配 id?