熊猫与 groupby 滚动最大
Posted
技术标签:
【中文标题】熊猫与 groupby 滚动最大【英文标题】:pandas rolling max with groupby 【发布时间】:2017-10-05 10:43:07 【问题描述】:我无法让 Pandas 的 rolling
函数完成我想做的事情。我想为每个 frow 计算迄今为止该组内的最大值。这是一个例子:
df = pd.DataFrame([[1,3], [1,6], [1,3], [2,2], [2,1]], columns=['id', 'value'])
看起来像
id value
0 1 3
1 1 6
2 1 3
3 2 2
4 2 1
现在我希望获得以下DataFrame:
id value
0 1 3
1 1 6
2 1 6
3 2 2
4 2 2
问题是当我这样做时
df.groupby('id')['value'].rolling(1).max()
我得到了相同的 DataFrame。当我这样做时
df.groupby('id')['value'].rolling(3).max()
我得到一个带有 Nans 的 DataFrame。有人可以解释如何正确使用rolling
或其他一些 Pandas 函数来获取我想要的 DataFrame 吗?
【问题讨论】:
如果你想要在精神上与rolling
相似的东西,你可以像这样使用expanding
:df.groupby('id').expanding().max()
。但是,做一些快速测试这比其他两个答案慢。只是 FWIW,尽管它可能很有用,因为 expanding
确实为您提供了超过 cummax
的其他选项,如果您需要它们(例如窗口大小等)
【参考方案1】:
您似乎需要cummax()
而不是.rolling(N).max()
In [29]: df['new'] = df.groupby('id').value.cummax()
In [30]: df
Out[30]:
id value new
0 1 3 3
1 1 6 6
2 1 3 6
3 2 2 2
4 2 1 2
时机(使用全新的 Pandas 版本 0.20.1):
In [3]: df = pd.concat([df] * 10**4, ignore_index=True)
In [4]: df.shape
Out[4]: (50000, 2)
In [5]: %timeit df.groupby('id').value.apply(lambda x: x.cummax())
100 loops, best of 3: 15.8 ms per loop
In [6]: %timeit df.groupby('id').value.cummax()
100 loops, best of 3: 4.09 ms per loop
注意: from Pandas 0.20.0 what's new
提高了groupby().cummin()
和groupby().cummax()
的性能(GH15048、GH15109、GH15561、GH15635)
【讨论】:
【参考方案2】:使用 apply 会快一点:
# Using apply
df['output'] = df.groupby('id').value.apply(lambda x: x.cummax())
%timeit df['output'] = df.groupby('id').value.apply(lambda x: x.cummax())
1000 loops, best of 3: 1.57 ms per loop
其他方法:
df['output'] = df.groupby('id').value.cummax()
%timeit df['output'] = df.groupby('id').value.cummax()
1000 loops, best of 3: 1.66 ms per loop
【讨论】:
是时候升级到 Pandas 0.20.1 ;)以上是关于熊猫与 groupby 滚动最大的主要内容,如果未能解决你的问题,请参考以下文章