Python pandas计算groupby后的份额
Posted
技术标签:
【中文标题】Python pandas计算groupby后的份额【英文标题】:Python pandas calculate share of after groupby 【发布时间】:2021-07-25 22:53:57 【问题描述】:我想按邮政编码对以下类型的数据集进行分组,并计算每种运输方式在每个邮政编码中所占的已完成订单份额。 我已经实现了一个 csv 文件并尝试了下面的代码,但我意识到我需要 MultiIndex ——因为我有很多不同的邮政编码,所以我不确定如何使用它。
postalcode | shipping_method | completed_orders |
---|---|---|
12345 | post1 | 1 |
12345 | post2 | 3 |
12345 | post3 | 2 |
11123 | post1 | 1 |
11123 | post2 | 2 |
import numpy as np
import pandas as pd
shipping_data = pd.read_csv("shipping_per_postalcode.csv")
shareof = lambda x: x/x.sum()
result = shipping_data['amount_users_completed'].groupby(level=['postalcode', 'shipping_option']).transform(sumto)
print(result)
【问题讨论】:
【参考方案1】:您可能需要额外的 groupby 才能获得百分比贡献
df_agg=df_1.groupby(['postalcode', 'shipping_method'])['completed_orders'].sum()
df_agg.groupby(level=0).apply(lambda x: 100*x/float(x.sum()))
来源:Pandas percentage of total with groupby
【讨论】:
哇,我真的为自己复杂了。非常感谢! 不客气@SevgiCamuz!如果您发现它有用,请点赞答案:) 默认! :) 你知道为什么完成订单份额的列名消失了吗?【参考方案2】:像这样?
result = df['completed_orders'] / df.groupby(['postalcode'])['completed_orders'].transform(sum)
# Out[43]:
# 0 0.166667
# 1 0.500000
# 2 0.333333
# 3 0.333333
# 4 0.666667
# Name: completed_orders, dtype: float64
【讨论】:
以上是关于Python pandas计算groupby后的份额的主要内容,如果未能解决你的问题,请参考以下文章
Python Pandas 计算两列的 value_counts 并使用 groupby
python使用pandas计算dataframe中每个分组的极差分组数据的极差(range)使用groupby函数和agg函数计算分组的最大值和最小值