如何将函数应用于日期索引的 DataFrame

Posted

技术标签:

【中文标题】如何将函数应用于日期索引的 DataFrame【英文标题】:How to apply function to date indexed DataFrame 【发布时间】:2012-12-07 03:27:46 【问题描述】:

我在使用带有日期索引的 DataFrame 时遇到很多问题。

from pandas import DataFrame, date_range
# Create a dataframe with dates as your index
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
idx = date_range('1/1/2012', periods=10, freq='MS')
df = DataFrame(data, index=idx, columns=['Revenue'])
df['State'] = ['NY', 'NY', 'NY', 'NY', 'FL', 'FL', 'GA', 'GA', 'FL', 'FL'] 

In [6]: df
Out[6]: 
       Revenue   State
2012-01-01   1      NY
2012-02-01   2      NY
2012-03-01   3      NY
2012-04-01   4      NY
2012-05-01   5      FL
2012-06-01   6      FL
2012-07-01   7      GA
2012-08-01   8      GA
2012-09-01   9      FL
2012-10-01   10     FL

我正在尝试使用组平均值添加一个名为 'Mean' 的附加列:

我试过了,但它不起作用:

df2 = df
df2['Mean'] = df.groupby(['State'])['Revenue'].apply(lambda x: mean(x))

In [9]: df2.head(10)
Out[9]:
       Revenue    State    Mean
2012-01-01   1       NY     NaN
2012-02-01   2       NY     NaN
2012-03-01   3       NY     NaN
2012-04-01   4       NY     NaN
2012-05-01   5       FL     NaN
2012-06-01   6       FL     NaN
2012-07-01   7       GA     NaN
2012-08-01   8       GA     NaN
2012-09-01   9       FL     NaN
2012-10-01   10      FL     NaN

但我想得到:

       Revenue    State    Mean
2012-01-01   1       NY     2.5
2012-02-01   2       NY     2.5
2012-03-01   3       NY     2.5
2012-04-01   4       NY     2.5
2012-05-01   5       FL     7.5
2012-06-01   6       FL     7.5
2012-07-01   7       GA     7.5
2012-08-01   8       GA     7.5
2012-09-01   9       FL     7.5
2012-10-01   10      FL     7.5

我怎样才能得到这个DataFrame?

【问题讨论】:

【参考方案1】:

使用joinmerge 也可以:

In [68]: revs = df.groupby('State').Revenue.mean()

In [69]: revs.name = 'Mean Revenue'

In [70]: df.join(revs, on='State')
Out[70]: 
            Revenue State  Mean Revenue
2012-01-01        1    NY           2.5
2012-02-01        2    NY           2.5
2012-03-01        3    NY           2.5
2012-04-01        4    NY           2.5
2012-05-01        5    FL           7.5
2012-06-01        6    FL           7.5
2012-07-01        7    GA           7.5
2012-08-01        8    GA           7.5
2012-09-01        9    FL           7.5
2012-10-01       10    FL           7.5

【讨论】:

【参考方案2】:

你几乎拥有它!首先创建 groupby 对象:

means = df.groupby('State').mean()

In [5]: means
Out[5]: 
       Revenue
State         
FL         7.5
GA         7.5
NY         2.5

然后apply这个到DataFrame中的每个状态:

df['mean'] = df['State'].apply(lambda x: means.ix[x]['Revenue'])

In [7]: df
Out[7]: 
            Revenue State  mean
2012-01-01        1    NY   2.5
2012-02-01        2    NY   2.5
2012-03-01        3    NY   2.5
2012-04-01        4    NY   2.5
2012-05-01        5    FL   7.5
2012-06-01        6    FL   7.5
2012-07-01        7    GA   7.5
2012-08-01        8    GA   7.5
2012-09-01        9    FL   7.5
2012-10-01       10    FL   7.5

【讨论】:

以上是关于如何将函数应用于日期索引的 DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

如何将 groupBy 和聚合函数应用于 PySpark DataFrame 中的特定窗口?

在熊猫应用函数中获取行的索引

pandas使用reindex函数为日期索引中有缺失日期的dataframe进行索引重置(所有日期都连续)并使用fill_value参数为行进行默认填充

pandas使用date_range函数按照指定的频率(freq)和指定的个数(periods)生成dataframe的时间格式数据列基于dataframe的日期数据列生成日期索引

pandas使用query函数查询指定日期索引对应的dataframe数据行(select rows using a single date in dataframe)

如何合并 DataFrame,以便将一个对应于 *dates* 的值应用于另一个所有日期的所有 *times*?