在 DataFrame 中获取上一个工作日

Posted

技术标签:

【中文标题】在 DataFrame 中获取上一个工作日【英文标题】:Get previous business day in a DataFrame 【发布时间】:2019-03-15 11:26:50 【问题描述】:

我有一个包含两列、一个日期和一个类别的 DataFrame。我想根据规则创建一个新的日期列:如果类别是B,那么该值应该是最接近日期的工作日(仅来自过去或当天本身),否则它是日期列本身的值.

我将工作日定义为不在周末的任何一天,也不存在于以下最小示例中定义的列表holidays 中。

请考虑以下DataFrame df

import datetime as dt
import pandas as pd
from IPython.display import display

holidays = [dt.datetime(2018, 10, 11)]
df = pd.DataFrame("day": ["2018-10-10", "2018-10-11", "2018-10-12",
                       "2018-10-13", "2018-10-14", "2018-10-15"
                      ],
               "category":["A", "B", "C", "B", "C", "A"]
              
)

df["day"] = pd.to_datetime(df.day, format="%Y-%m-%d")
display(df)

         day category
0 2018-10-10        A
1 2018-10-11        B
2 2018-10-12        C
3 2018-10-13        B
4 2018-10-14        C
5 2018-10-15        A

如何获得第三列的值如下所列?

2018-10-10
2018-10-10
2018-10-12
2018-10-12
2018-10-14
2018-10-15

我创建了一个函数,可以在处理列表时找到最后一个工作日,如果有帮助的话。

# creates a list whose elements are all days in the years 2017, 2018 and 2019
days = [dt.datetime(2017, 1 , 1) + dt.timedelta(k) for k in range(365*3)]


def lastt_bus_day(date):
    return max(
        [d for d in days if d.weekday() not in [5, 6]
                            and d not in holidays
                            and d <= date
        ]
    )

for d in df.day:
    print(last_bus_day(d))
#prints
2018-10-10 00:00:00
2018-10-10 00:00:00
2018-10-12 00:00:00
2018-10-12 00:00:00
2018-10-12 00:00:00
2018-10-15 00:00:00

【问题讨论】:

谢谢大家的回答。我需要一点时间来完成它们。 【参考方案1】:

Pandas 支持通过Custom Business Days 提供您自己的假期。

此解决方案的好处是它无缝支持相邻的假期;例如,某些地区的节礼日和圣诞节。

# define custom business days
weekmask = 'Mon Tue Wed Thu Fri'
holidays = ['2018-10-11']

bday = pd.tseries.offsets.CustomBusinessDay(holidays=holidays, weekmask=weekmask)

# construct mask to identify when days must be sutracted
m1 = df['category'] == 'B'
m2 = df['day'].dt.weekday.isin([5, 6]) | df['day'].isin(holidays)

# apply conditional logic
df['day'] = np.where(m1 & m2, df['day'] - bday, df['day'])

print(df)

  category        day
0        A 2018-10-10
1        B 2018-10-10
2        C 2018-10-12
3        B 2018-10-12
4        C 2018-10-14
5        A 2018-10-15

编辑:根据您的评论,“我刚刚意识到我并没有确切地问我想要什么。我想找到前一个工作日”,您可以简单地使用:

df['day'] -= bday

【讨论】:

谢谢,我喜欢这个,因为它使用了已经构建的工具。然而,这回答了我的问题......我只是意识到我并没有确切地问我想要什么。我想找到前一个工作日。这意味着,如果这一天本身是工作日,我将不想要那个,而是前一个工作日。有什么简单的解决方法吗?再次感谢您。【参考方案2】:

通过使用pandas BDay

df.day.update(df.loc[(df.category=='B')&((df.day.dt.weekday.isin([5,6])|(df.day.isin(holidays )))),'day']-pd.tseries.offsets.BDay(1))
df
Out[22]: 
  category        day
0        A 2018-10-10
1        B 2018-10-10
2        C 2018-10-12
3        B 2018-10-12
4        C 2018-10-14
5        A 2018-10-15

【讨论】:

这很好,但是如果有 2 个相邻的假期呢? @jpp 你的意思是两个假期?我想我们可以自己定义假期:-) 哈哈,这里正好是节礼日和圣诞节相邻。所以如果输入恰好是圣诞节,那么减去一天将得到节礼日:S【参考方案3】:

你已经很接近了:

holidays = [dt.date(2018, 10, 11)]
days = [dt.date(2017, 1 , 1) + dt.timedelta(k) for k in range(365*3)]
def lastt_bus_day(date, format='%Y-%m-%d'):
    if not isinstance(date, dt.date):
        date = dt.datetime.strptime(date, format).date()
    return max(
        [d for d in days if d.weekday() not in [5, 6]
                            and d not in holidays
                            and d <= date
        ]
    )

然后将其应用于整个数据框:

df['business_day'] = df['day']
df['business_day'].loc[df['category'] == 'B'] = df.loc[df['category'] == 'B', 'day'].apply(lastt_bus_day)

【讨论】:

嗨,克里斯。但是类别要求呢?这就是我遇到的问题的一部分。 对不起,我没看到那部分。我编辑为仅选择 B 类。 谢谢。解决方案了解。【参考方案4】:

您可以在 category == 'B' 的子集上使用 pd.merge_asof 与所有非节假日工作日,并为所有其他类别指定日期。设置allow_exact_matches=False,保证B不匹配同一天。

import pandas as pd

mask = df.category == 'B'

# DataFrame of all non-holiday days
df_days = pd.DataFrame(days, columns=['day'])
df_days = df_days.loc[(df_days.day.dt.weekday<5) & ~df_days.day.isin(holidays)]

dfb = pd.merge_asof(
        df.loc[mask], 
        df_days.assign(new_day=df_days.day), 
        on='day', 
        direction='backward',
        allow_exact_matches=False)

dfnb = df.assign(new_day = df.day)[~mask]

pd.concat([dfnb, dfb], ignore_index=True).sort_values('day')

输出:

         day category    new_day
0 2018-10-10        A 2018-10-10
4 2018-10-11        B 2018-10-10
1 2018-10-12        C 2018-10-12
5 2018-10-13        B 2018-10-12
2 2018-10-14        C 2018-10-14
3 2018-10-15        A 2018-10-15

【讨论】:

谢谢。解决方案了解。 @CerramoslosOjos 没问题!我使用关键字allow_exact_matches=False 对其进行了更新,以根据您在 jpp 解决方案中的评论匹配您的预期输出 非常感谢,这很有启发性。在使用连接条件不相等的 SQL 提出问题之前,我实际上已经找到了解决方案。它有点类似于我不知道存在的merge_asof。【参考方案5】:

您只需计算出工作日并根据您的类别选择最接近的工作日即可。

df['day2'] = df.day
bd = pd.date_range(min(df.day), max(df.day), freq='b')
bd = bd[~bd.isin(holidays)]
df.loc[df.category=='B', 'day2'] = df.loc[df.category=='B', 'day'].apply(lambda x: bd[bd.searchsorted(x)-1])

输出

    category    day day2
0   A   2018-10-10  2018-10-10
1   B   2018-10-11  2018-10-10
2   C   2018-10-12  2018-10-12
3   B   2018-10-13  2018-10-12
4   C   2018-10-14  2018-10-14
5   A   2018-10-15  2018-10-15

【讨论】:

这在 B 类且当天是工作日本身时不起作用。

以上是关于在 DataFrame 中获取上一个工作日的主要内容,如果未能解决你的问题,请参考以下文章

Dataframe.toPandas 总是在驱动节点还是工作节点上?

pandas如何在现有的Excel表格上新建工作表并添加dataframe

如何处理空的“DataFrame”:没有数字数据来绘制错误以在图表上获取字符串

使用 DataFrame API 时,自联接无法按预期工作

在 pandas 数据框中获取几年内工作日某个小时的平均值

Python Dataframe 获取空值计数