Python Pandas 如何将 groupby 操作结果分配回父数据框中的列?
Posted
技术标签:
【中文标题】Python Pandas 如何将 groupby 操作结果分配回父数据框中的列?【英文标题】:Python Pandas How to assign groupby operation results back to columns in parent dataframe? 【发布时间】:2012-08-25 09:45:42 【问题描述】:我在 IPython 中有以下数据框,其中每一行都是一个股票:
In [261]: bdata
Out[261]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21210 entries, 0 to 21209
Data columns:
BloombergTicker 21206 non-null values
Company 21210 non-null values
Country 21210 non-null values
MarketCap 21210 non-null values
PriceReturn 21210 non-null values
SEDOL 21210 non-null values
yearmonth 21210 non-null values
dtypes: float64(2), int64(1), object(4)
我想应用一个 groupby 操作,计算“年月”列中每个日期的所有事物的上限加权平均回报。
这按预期工作:
In [262]: bdata.groupby("yearmonth").apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
Out[262]:
yearmonth
201204 -0.109444
201205 -0.290546
但是我想将这些值“广播”回原始数据框中的索引,并将它们保存为日期匹配的常量列。
In [263]: dateGrps = bdata.groupby("yearmonth")
In [264]: dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
/mnt/bos-devrnd04/usr6/home/espears/ws/Research/Projects/python-util/src/util/<ipython-input-264-4a68c8782426> in <module>()
----> 1 dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
TypeError: 'DataFrameGroupBy' object does not support item assignment
我意识到这个幼稚的任务不应该奏效。但是,将 groupby 操作的结果分配到父数据帧上的新列中的“正确”Pandas 习语是什么?
最后,我想要一个名为“MarketReturn”的列,而不是所有与 groupby 操作的输出具有匹配日期的索引的重复常量值。
实现此目的的一个技巧如下:
marketRetsByDate = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
bdata["MarketReturn"] = np.repeat(np.NaN, len(bdata))
for elem in marketRetsByDate.index.values:
bdata["MarketReturn"][bdata["yearmonth"]==elem] = marketRetsByDate.ix[elem]
但这很慢,很糟糕,而且不符合 Python 风格。
【问题讨论】:
您正在分配回您的分组对象,而不是您的原始框架。 我知道这一点,我直接在错误下方这么说,我说:“我意识到这个幼稚的分配不应该起作用。但是分配 groupby 的结果的“正确”Pandas 成语是什么操作到父数据框上的新列?”在 LHS 上使用我的原始数据框进行分配也不起作用,甚至比在 GroupBy 对象级别添加列更不直观。 【参考方案1】:In [97]: df = pandas.DataFrame('month': np.random.randint(0,11, 100), 'A': np.random.randn(100), 'B': np.random.randn(100))
In [98]: df.join(df.groupby('month')['A'].sum(), on='month', rsuffix='_r')
Out[98]:
A B month A_r
0 -0.040710 0.182269 0 -0.331816
1 -0.004867 0.642243 1 2.448232
2 -0.162191 0.442338 4 2.045909
3 -0.979875 1.367018 5 -2.736399
4 -1.126198 0.338946 5 -2.736399
5 -0.992209 -1.343258 1 2.448232
6 -1.450310 0.021290 0 -0.331816
7 -0.675345 -1.359915 9 2.722156
【讨论】:
这仍然需要我保存 groupby 计算,而不是直接在我执行 groupby 操作的行上的 LHS 上进行分配。 Apply 可能比我在问题底部的 hack 中的循环要好一些,但它们基本上是相同的想法。 加入可以做到这一点,但您需要重命名添加的列。在这种情况下,A_r 是 new_col。 底部的连接示例确实有效,但没有清晰呈现。如果您想删除答案的第一部分并使后一部分更清楚一些,我会在接受之外投票。 我删除了第一种方法。老实说,我觉得代码不言自明,如果您想添加一些解释或对文档的引用,请随时编辑。我不是很喜欢投票系统,只是在这里支持一下熊猫。 我花了很长时间寻找这个答案,有点死灵帖子,但谢谢! +1【参考方案2】:虽然我仍在探索 apply
连接给出的片段的所有令人难以置信的智能方式,但这是在 groupby 操作之后在父级中添加新列的另一种方法。
In [236]: df
Out[236]:
yearmonth return
0 201202 0.922132
1 201202 0.220270
2 201202 0.228856
3 201203 0.277170
4 201203 0.747347
In [237]: def add_mkt_return(grp):
.....: grp['mkt_return'] = grp['return'].sum()
.....: return grp
.....:
In [238]: df.groupby('yearmonth').apply(add_mkt_return)
Out[238]:
yearmonth return mkt_return
0 201202 0.922132 1.371258
1 201202 0.220270 1.371258
2 201202 0.228856 1.371258
3 201203 0.277170 1.024516
4 201203 0.747347 1.024516
【讨论】:
您也可以在不使用 lambda 定义函数的情况下执行此操作并分配:df.groupby('yearmonth').apply(lambda grp: grp.assign(mkt_return=grp['return'].sum()))
【参考方案3】:
我可以建议transform
方法(而不是聚合)吗?如果您在原始示例中使用它,它应该做您想做的事情(广播)。
【讨论】:
我的理解是 transform 会产生一个看起来像它传递的对象。因此,如果您转换一个 DataFrame,您不仅会返回一列,还会返回一个 DataFrame。而在我的情况下,我想将新结果附加到原始数据框中。或者你是说我应该编写一个单独的函数来获取数据框,计算新列并附加新列,然后然后使用该函数进行转换? 我同意,transform是更好的选择,df['A-month-sum'] = df.groupby('month')['A'].transform(sum) 但是为什么会更好呢?它也一样,不是吗?它更快吗? 恕我直言,transform
看起来更干净。我没有 EMS 数据来确认这一点,但这可能有效(尽管可能需要修改 lambda 函数):bdata['mkt_return'] = bdata.groupby("yearmonth").transform(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
如果我错了,请纠正我,transform
不允许在groupby
之后对多个列进行操作,例如df.groupby('col_3')[['col_1','col_2']].transform(lambda x: ((1-x.col_1.mean()) - x.col_2.std()))
将抛出一个错误,抱怨“没有属性 XXX”【参考方案4】:
作为使用 groupby() 时的一般规则,如果您使用 .transform() 函数,pandas 将返回一个与原始表格长度相同的表格。当您使用 .sum() 或 .first() 等其他函数时,pandas 将返回一个表,其中每一行都是一个组。
我不确定这如何与 apply 一起工作,但使用 transform 实现复杂的 lambda 函数可能相当棘手,因此我认为最有用的策略是创建我需要的变量,将它们放在原始数据集中,然后执行我的在那里进行操作。
如果我了解您首先要正确执行的操作,您可以计算每个组的总市值:
bdata['group_MarketCap'] = bdata.groupby('yearmonth')['MarketCap'].transform('sum')
这将在您的原始数据中添加一个名为“group_MarketCap”的列,其中包含每个组的市值总和。然后你可以直接计算加权值:
bdata['weighted_P'] = bdata['PriceReturn'] * (bdata['MarketCap']/bdata['group_MarketCap'])
最后,您将使用相同的变换函数计算每个组的加权平均值:
bdata['MarketReturn'] = bdata.groupby('yearmonth')['weighted_P'].transform('sum')
我倾向于以这种方式构建我的变量。有时您可以将所有内容放在一个命令中,但这并不总是与 groupby() 一起使用,因为大多数时候 pandas 需要实例化新对象才能在整个数据集范围内对其进行操作(即,您不能如果两列尚不存在,则将两列加在一起)。
希望这会有所帮助:)
【讨论】:
【参考方案5】:我没有找到对原始数据框进行分配的方法。所以我只是存储来自组的结果并将它们连接起来。然后我们通过索引对连接的数据帧进行排序,得到原始顺序作为输入数据帧。这是一个示例代码:
In [10]: df = pd.DataFrame('month': np.random.randint(0,11, 100), 'A': np.random.randn(100), 'B': np.random.randn(100))
In [11]: df.head()
Out[11]:
month A B
0 4 -0.029106 -0.904648
1 2 -2.724073 0.492751
2 7 0.732403 0.689530
3 2 0.487685 -1.017337
4 1 1.160858 -0.025232
In [12]: res = []
In [13]: for month, group in df.groupby('month'):
...: new_df = pd.DataFrame(
...: 'A^2+B': group.A ** 2 + group.B,
...: 'A+B^2': group.A + group.B**2
...: )
...: res.append(new_df)
...:
In [14]: res = pd.concat(res).sort_index()
In [15]: res.head()
Out[15]:
A^2+B A+B^2
0 -0.903801 0.789282
1 7.913327 -2.481270
2 1.225944 1.207855
3 -0.779501 1.522660
4 1.322360 1.161495
此方法非常快速且可扩展。您可以在此处导出任何特征。
注意:如果数据框太大,
concat
可能会导致你的MMO错误。
【讨论】:
以上是关于Python Pandas 如何将 groupby 操作结果分配回父数据框中的列?的主要内容,如果未能解决你的问题,请参考以下文章
Python pandas 将 groupby 对象中的每个组打印为单行
使用 pandas python 将 2 个 groupby 输出与 lambda 组合
如何在python中使用groupby或pivot在这个pandas数据框中[重复]