在 pandas 数据帧上同时操作 groupby 和 resample？

Posted 2023-02-23

技术标签:

【中文标题】在 pandas 数据帧上同时操作 groupby 和 resample？【英文标题】：Simultaneous operation of groupby and resample on pandas dataframe? 【发布时间】：2017-08-09 18:56:33 【问题描述】：

我的 pandas 数据框由一个分类列 JOB_TITLE、一个数字列 BASE_SALARY 和一个日期时间索引 JOIN_DATE 组成。我想对分类和下采样日期时间组进行聚合，如下所示：

# Resampled at frequency of start data of every 5 years
mean_agg = (df
          .groupby('JOB_TITLE')
          .resample('5AS')['BASE_SALARY']
          .mean())

不幸的是，由于 groupby 操作发生在重采样之前，因此重采样操作是针对每个 JOB_TITLE 组独立执行的。这导致以下系列：

| JOB_TITLE         | JOIN_DATE  |       |
|-------------------|------------|-------|
| Data Scientist    | 2004-01-01 | 60000 |
|                   | 2009-01-01 | 75000 |
|                   | 2014-01-01 | 90000 |
|                   |            |       |
| Software Engineer | 2001-01-01 | 70000 |
|                   | 2006-01-01 | 85000 |
|                   | 2011-01-01 | 90000 |
|                   | 2016-01-01 | 85000 |

如您所见，数据科学家组和软件工程师的 JOIN_DATE 级别的索引未对齐。当您为级别 JOB_TITLE 应用 unstack 时，这会产生问题，如下所示：

mean_agg.unstack('JOB_TITLE')

这会产生以下数据框：

| JOB_TITLE  | Data Scientist | Software Engineer |
|------------|----------------|-------------------|
| JOIN_DATE  |                |                   |
| 2001-01-01 | NaN            | 70000             |
| 2004-01-01 | 60000          | NaN               |
| 2006-01-01 | NaN            | 85000             |
| 2009-01-01 | 75000          | NaN               |
| 2011-01-01 | NaN            | 70000             |
| 2014-01-01 | 90000          | NaN               |
| 2016-01-01 | NaN            | 85000             |

如何避免 groupby 和 resample 的这种顺序操作，而是执行同时操作？谢谢！

【问题讨论】：

【参考方案1】：

更新 Pandas 0.21 答案：pd.TimeGrouper is getting deprecated，改用 pd.Grouper。

mean_agg = (df.groupby(['JOB_TITLE',pd.Grouper(freq='5AS')])['BASE_SALARY']
              .mean())

mean_agg.unstack('JOB_TITLE')

我们不使用重采样，而是尝试使用 pd.TimeGrouper

mean_agg = (df
      .groupby(['JOB_TITLE',pd.TimeGrouper(freq='5AS')])['BASE_SALARY']
      .mean())

mean_agg.unstack('JOB_TITLE')

TimeGrouper 对齐分组时间范围的 bin。

【讨论】：

太棒了！ pd.TimeGrouper() 非常适合我的问题。【参考方案2】：

你可以使用 .reset_index()

day = pd.Grouper(freq='D')
df.set_index('JOIN_DATE').groupby(['JOB_TITLE', day]).BASE_SALARY.mean()

...或使用 pd.Grouper 中的 key 参数

day = pd.Grouper(key='JOIN_DATE', freq='D')
df.groupby(['JOB_TITLE', day]).BASE_SALARY.mean()

【讨论】：

以上是关于在 pandas 数据帧上同时操作 groupby 和 resample？的主要内容，如果未能解决你的问题，请参考以下文章