如何在 Pandas 数据框的每一行上使用 .rolling()?

Posted

技术标签:

【中文标题】如何在 Pandas 数据框的每一行上使用 .rolling()?【英文标题】:How to use .rolling() on each row of a Pandas dataframe? 【发布时间】:2018-01-10 20:26:59 【问题描述】:

我创建了一个 Pandas 数据框df

df.head()
Out[1]: 
                    A           B   DateTime 
2010-01-01  50.662365  101.035099 2010-01-01             
2010-01-02  47.652424   99.274288 2010-01-02            
2010-01-03  51.387459   99.747135 2010-01-03               
2010-01-04  52.344788   99.621896 2010-01-04               
2010-01-05  47.106364   98.286224 2010-01-05               

我可以添加 A 列的移动平均值:

df['A_moving_average'] = df.A.rolling(window=50, axis="rows") \
                             .apply(lambda x: np.mean(x))

问题:如何添加列 A B的移动平均值?

这应该可以,但它给出了一个错误:

df['A_B_moving_average'] = df.rolling(window=50, axis="rows") \
                             .apply(lambda row: (np.mean(row.A) + np.mean(row.B)) / 2)

错误是:

NotImplementedError: ops for Rolling for this dtype datetime64[ns] are not implemented

附录 A:创建 Pandas 数据框的代码

这是我创建测试 Pandas 数据框df的方法:

import numpy.random as rnd
import pandas as pd
import numpy as np

count = 1000

dates = pd.date_range('1/1/2010', periods=count, freq='D')

df = pd.DataFrame(
    
        'DateTime': dates,
        'A': rnd.normal(50, 2, count), # Mean 50, standard deviation 2
        'B': rnd.normal(100, 4, count) # Mean 100, standard deviation 4
    , index=dates
)

【问题讨论】:

更新:如果我删除 'DateTime': dates, 行,则会出现不同的错误:AttributeError: 'numpy.ndarray' object has no attribute 'A' 【参考方案1】:

我找不到直接解决在rolling 中使用多列的一般问题 - 但在您的具体情况下,您可以取 A 列和 B 列的平均值,然后应用您的 rolling

df['A_B_moving_average'] = ((df.A + df.B) / 2).rolling(window=50, axis='rows').mean()

正如解释:如果您为rollingaxis='rows' 指定整个DataFrame,则每列将单独执行。所以:

df['A_B_moving_average'] = df.rolling(window=5, axis='rows').mean()

将首先评估A(有效)的滚动窗口,然后评估B(有效)和DateTime(无效,因此出现错误)。每个滚动窗口都是一个普通的 NumPy 数组,因此您无法访问“列名”。就像使用prints 进行演示一样:

import numpy.random as rnd
import pandas as pd
import numpy as np
count = 10
dates = pd.date_range('1/1/2010', periods=count, freq='D')
df = pd.DataFrame(
    
        'DateTime': dates,
        'A': rnd.normal(50, 2, count), # Mean 50, standard deviation 2
        'B': rnd.normal(100, 4, count) # Mean 100, standard deviation 4
    , index=dates
)
df[['A', 'B']].rolling(window=6, axis='rows').apply(lambda row: print(row) or np.max(row))

打印:

[ 47.32327354  48.12322447  50.86806381  49.3676319   47.81335338
  49.66915104]
[ 48.12322447  50.86806381  49.3676319   47.81335338  49.66915104
  48.01520798]
[ 50.86806381  49.3676319   47.81335338  49.66915104  48.01520798
  48.14089864]
[ 49.3676319   47.81335338  49.66915104  48.01520798  48.14089864
  51.89999973]
[ 47.81335338  49.66915104  48.01520798  48.14089864  51.89999973
  48.76838054]
[ 100.10662696   96.72411985  103.24600664   95.03841539   95.23430836
  102.30955102]
[  96.72411985  103.24600664   95.03841539   95.23430836  102.30955102
   95.18273088]
[ 103.24600664   95.03841539   95.23430836  102.30955102   95.18273088
   97.36751546]
[  95.03841539   95.23430836  102.30955102   95.18273088   97.36751546
   99.25325622]
[  95.23430836  102.30955102   95.18273088   97.36751546   99.25325622
  105.16747544]

第一个来自A 列,最后一个来自B 列,它们都是普通数组。

【讨论】:

以上是关于如何在 Pandas 数据框的每一行上使用 .rolling()?的主要内容,如果未能解决你的问题,请参考以下文章

如何在数据框的每一行上应用函数?

如何将整个列表分配给熊猫数据框的每一行

如何遍历数据框并对该数据框的每一行执行一些操作?

如何将数据框附加到另一个数据框的每一行? [复制]

如何在熊猫数据框的每一行中找到选定列中的两个最低值?

将函数应用于矩阵或数据框的每一行