使用 pandas.join 在 datetime64[ns, UTC] 上加入失败

Posted

技术标签:

【中文标题】使用 pandas.join 在 datetime64[ns, UTC] 上加入失败【英文标题】:Joining on datetime64[ns, UTC] fails using pandas.join 【发布时间】:2019-06-24 09:58:16 【问题描述】:

我正在尝试在 datetime64[ns, UTC] 字段上加入两个 pandas.DataFrames,但由于 ValueError(如下所述)而失败,这对我来说并不直观。考虑这个例子:

>>> import pandas as pd
>>> import numpy as np
>>> 
>>> s_1 = pd.Series(np.random.randn(2,), index=['1981-12-10', '1984-09-14'])
>>> s_1.index = pd.to_datetime(s_1.index, utc=True)
>>> df_1 = pd.DataFrame(s_1, columns=['s_1']).assign(date=s_1.index)
>>> df_1.dtypes
s_1                 float64
date    datetime64[ns, UTC]
dtype: object
>>> 
>>> d = 
...    'v': np.random.randn(2,),
...    'close': ['1981-12-10', '1984-09-14']
>>> 
>>> df_2 = pd.DataFrame(data=d)
>>> df_2.close = pd.to_datetime(df_2.close, utc=True)
>>> df_2['date'] = df_2.close.apply(lambda x: x.replace(hour=0, minute=0, second=0))
>>> df_2.dtypes
v                    float64
close    datetime64[ns, UTC]
date     datetime64[ns, UTC]
dtype: object
>>> 
>>> df_1.join(df_2, on='date', lsuffix='_')
[...stacktrace ommitted for brevity...]
ValueError: You are trying to merge on datetime64[ns, UTC] and int64 columns. If you wish to proceed you should use pd.concat

显然date 字段不是int64。 documentation for join 表示“索引应该类似于此列中的一列。”所以我将df_2 的索引设置为date 字段并再次尝试:

>>> df_2.set_index('date', drop=False, inplace=True)
>>> df_1.dtypes
s_1                 float64
date    datetime64[ns, UTC]
dtype: object
>>> df_1.index
DatetimeIndex(['1981-12-10', '1984-09-14'], dtype='datetime64[ns, UTC]', freq=None)
>>> 
>>> df_2.dtypes
v                    float64
close    datetime64[ns, UTC]
date     datetime64[ns, UTC]
dtype: object
>>> df_2.index
DatetimeIndex(['1981-12-10', '1984-09-14'], dtype='datetime64[ns, UTC]', name='date', freq=None)
>>> 
>>> df_1.join(df_2, on='date', lsuffix='_')
[...stacktrace ommitted for brevity...]
ValueError: You are trying to merge on datetime64[ns, UTC] and datetime64[ns] columns. If you wish to proceed you should use pd.concat

在您建议我遵循友好说明并使用 pd.concat 之前,我不能:这不是我的代码;)

【问题讨论】:

【参考方案1】:

有时使用日期时间索引进行索引连接不起作用。我真的不知道为什么,但对我有用的是使用合并,然后显式转换两个合并列,如下所示:

df['Time'] = pd.to_datetime(df['Time'], utc = True)

在我为对我有用的两个专栏都这样做之后。您也可以在使用连接操作之前尝试此操作,并使用上述过程再次转换两个索引。

更正确的方法可以在这里找到:Pandas timezone-aware timestamp to naive timestamp conversion

【讨论】:

以上是关于使用 pandas.join 在 datetime64[ns, UTC] 上加入失败的主要内容,如果未能解决你的问题,请参考以下文章

# yyds干货盘点 # 盘点一道使用pandas.merge()和pandas.join()函数实战应用题目

python数据表的合并(python pandas join() merge()和concat()的用法)

python数据表的合并(python pandas join() merge()和concat()的用法)

如何在 DataGridViewColumn 中使用服务器 DateTime 格式而不是系统 DateTime 格式

强制实体框架使用 datetime 而非 datetime2

使用 SQL DATETIME 规则对 DateTime 进行舍入