为啥 python 无法识别数据集中的月份列?

Posted

技术标签:

【中文标题】为啥 python 无法识别数据集中的月份列?【英文标题】:Why can't python recognize my month column in a dataset?为什么 python 无法识别数据集中的月份列? 【发布时间】:2016-12-20 15:42:14 【问题描述】:

这是数据框的样子:

Date  Time (HHMM)         Site  Plot  Replicate  Temperature  \
0   2002-05-01          600  Barre Woods    16          5          4.5
1   2002-05-01          600  Barre Woods    21          7          4.5
2   2002-05-01          600  Barre Woods    31          9          6.5
3   2002-05-01          600  Barre Woods    10          2          5.3
4   2002-05-01          600  Barre Woods     2          1          4.0
5   2002-05-01          600  Barre Woods    13          4          5.5
6   2002-05-01          600  Barre Woods    11          3          5.0
7   2002-05-01          600  Barre Woods    28          8          5.0
8   2002-05-01          600  Barre Woods    18          6          4.5
9   2002-05-01         1400  Barre Woods     2          1         10.3
10  2002-05-01         1400  Barre Woods    31          9          9.0
11  2002-05-01         1400  Barre Woods    13          4         11.0
import pandas as pd
import datetime as dt
from datetime import datetime
df=pd.read_csv('F:/data32.csv',parse_dates=['Date'])
df['Date']=pd.to_datetime(df['Date'],format='%m/%d/%y')

这是我得到错误的地方

df2=df.groupby(pd.TimeGrouper(freq='M'))

错误显示:

仅对 DatetimeIndex、TimedeltaIndex 或 PeriodIndex 有效,但得到 'RangeIndex' 的一个实例

【问题讨论】:

请将您的示例数据发布为文本 - 而不是图像 - 这使得任何人都很难实际测试和运行带有示例的东西以提供答案。无论如何,您想要的确切结果是什么? @JonClements 谢谢。我修好了它。我想将数据分成几个月,这样我就可以将我的数据框分成两部分:一部分包含月份:(Jan,Feb,Mar,Oct,Dec),另一部分包含所有其他数据集 pandas dataframe groupby datetime month的可能重复 我尝试使用它作为参考,但我不断收到错误@Merlin 那么你想在groupby上使用什么功能? 【参考方案1】:

df['Date'].dt.month 分组。例如,要计算平均温度,您可以执行以下操作。

import io
import pandas as pd

data = io.StringIO('''\
Date,Time (HHMM),Site,Plot,Replicate,Temperature
0,2002-05-01,600,Barre Woods,16,5,4.5
1,2002-05-01,600,Barre Woods,21,7,4.5
2,2002-05-01,600,Barre Woods,31,9,6.5
3,2002-05-01,600,Barre Woods,10,2,5.3
4,2002-05-01,600,Barre Woods,2,1,4.0
5,2002-05-01,600,Barre Woods,13,4,5.5
6,2002-05-01,600,Barre Woods,11,3,5.0
7,2002-05-01,600,Barre Woods,28,8,5.0
8,2002-05-01,600,Barre Woods,18,6,4.5
9,2002-05-01,1400,Barre Woods,2,1,10.3
10,2002-05-01,1400,Barre Woods,31,9,9.0
11,2002-05-01,1400,Barre Woods,13,4,11.0
''')

df = pd.read_csv(data)
df['Date'] = pd.to_datetime(df['Date'], format='%Y-%m-%d')

df.groupby(df['Date'].dt.month)['Temperature'].mean()

输出:

Date
5    6.258333
Name: Temperature, dtype: float64

【讨论】:

【参考方案2】:

你可以先使用set_index:

dfx = df.set_index('Date')

那你可以groupby:

dfx.groupby(lambda x : x.month).mean() #just for an example I am using .mean()

【讨论】:

没有Date Time 列,所以df.set_index('Date Time') 引发KeyError

以上是关于为啥 python 无法识别数据集中的月份列?的主要内容,如果未能解决你的问题,请参考以下文章

为啥 spark 无法识别我的“数据框布尔表达式”?

为啥直接调用 Python 脚本时 argparse 无法识别参数?

为啥使用案例类在 DataFrame 上映射失败并显示“无法找到存储在数据集中的类型的编码器”?

为啥 Xcode 无法识别我的核心数据实体的属性

Python Pandas 条件无法准确识别行

为啥 pytesseract 无法识别背景较暗的图像中的数字?