如何在 Python 中使用 Pandas 创建会计年度列?

Posted

技术标签:

【中文标题】如何在 Python 中使用 Pandas 创建会计年度列?【英文标题】:How to use Pandas within Python to create a Fiscal Year Column? 【发布时间】:2018-03-23 20:58:50 【问题描述】:

我有一个带有 python 的代码,可以在将 .csv 附加到另一个数据集之前对其进行清理。它缺少几列,所以我一直在试图弄清楚如何使用 Pandas 添加列并填充行。

我目前有一列 DiscoveredDate,格式为 10/1/2017 12:49。

我要做的是获取该列,日期范围 10/1/2016-10/1/2017 中的任何内容都有一列 FedFY 其行填充 2017 等2018 年是明智的。

以下是我当前的脚本减去一些不同的列清理。

    import os
    import re
    import pandas as pd
    import Tkinter
    import numpy as np

    outpath = os.path.join(os.getcwd(), "CSV Altered")

    # TK asks user what file to assimilate
    from Tkinter import Tk
    from tkFileDialog import askopenfilename

    Tk().withdraw()
    filepath = askopenfilename() # show an "Open" dialog box and return the path to the selected file

    #Filepath is acknowledged and disseminated with the following totally human protocols
    filenames = os.path.basename(filepath)

    filename = [filenames]

    for f in filename:
    name = f
    df = pd.read_csv(f)

        # Make Longitude values negative if they aren't already.
        df['Longitude'] = - df['Longitude'].abs()

        # Add Federal Fiscal Year Field (FedFY)
        df['FedFY'] = df['DiscoveredDate']
        df['FedFY'] = df['FedFY'].replace(df['FedFY'].date_range(10/1/2016 1:00,10/1/2017 1:00): "2017",df['FedFY'].date_range(10/1/2017 1:00, 10/1/2018 1:00): "2018")

我也试过这个,但我认为我完全是在捏造它。

 for rows in df['FedFY']:
    if rows = df['FedFY'].date_range(10/1/2016 1:00, 10/1/2017 1:00):
        then df['FedFY'] =  df['FedFY'].replace(rows : "2017")
    elif df['FedFY'] =  df['FedFY'].replace(rows : "2018")

我应该如何有效地解决这个问题?只是我的语法把我弄乱了吗?还是我都错了?

[为清楚起见标题和全文进行了编辑。]

【问题讨论】:

【参考方案1】:

好的,感谢 DyZ,我正在取得进步;但是,我想出了一个更简单的方法来做到这一点,并且可以持续多年。

以他的 np.where 为基础,我:

 From datetime import datetime

 df['Date'] = pd.to_datetime(df['DiscoveredDate'])
 df['CalendarYear'] = df['Date'].dt.year
 df['Month'] = df.Date.dt.month
 c = pd.to_numeric(df['CalendarYear'])

这就是魔法线。

df['FedFY'] = np.where(df['Month'] >= 10, c+1, c) 

为了扫地,我添加了一行以将其从数字恢复为日期时间格式。

df['FedFY'] = (pd.to_datetime(df['FedFY'], format = '%Y')).dt.year

这才是真正为我渡过的难关Create a column based off a conditional with pandas.

编辑:忘记提及 .dt 内容的导入日期时间

【讨论】:

【参考方案2】:

如果您关注这两个 FY,您可以将您的日期直接与开始/结束日期进行比较:

df["FedFY"] = np.where((df.DiscoveredDate < pd.to_datetime("10/1/2017")) &\
                       (df.DiscoveredDate > pd.to_datetime("10/1/2016")), 
                       2017, 2018)

2016 年 10 月 1 日之前的任何日期都将被错误标记! (您可以通过添加另一个 np.where 来解决此问题。

确保正确包含或不包含开始/结束日期(如有必要,将&lt; 和/或&gt; 更改为&lt;=&gt;=)。

【讨论】:

你可以接受如果你喜欢它的答案。接受答案也会增加你的代表。

以上是关于如何在 Python 中使用 Pandas 创建会计年度列?的主要内容,如果未能解决你的问题,请参考以下文章

如何优雅的安装Python的pandas

如何使用 Python 和 Pandas 创建比 RAM 更大的 csv 文件

python pandas怎么输出结果

如何在 Python Pandas 回归模型中使用滞后时间序列变量?

pandas,python - 如何在时间序列中选择特定时间

如何在 python+numpy/pandas 中使用二值化在 json 文件中创建新列