Pandas 将带有 unix 时间戳(以毫秒为单位)的行转换为日期时间

Posted

技术标签:

【中文标题】Pandas 将带有 unix 时间戳(以毫秒为单位)的行转换为日期时间【英文标题】:Pandas converting row with unix timestamp (in milliseconds) to datetime 【发布时间】:2016-04-25 07:10:23 【问题描述】:

我需要处理大量 CSV 文件,其中时间戳始终是一个字符串,以毫秒为单位表示 unix 时间戳。我还没有找到有效修改这些列的方法。

这是我想出的,但是这当然只复制列,我必须以某种方式将其放回原始数据集。我确定在创建DataFrame时可以做到吗?

import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO
import pandas as pd

data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'

df = pd.read_csv(StringIO(data))

convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)

这将选择列“UNIXTIME”并将其更改为

0    1447160702320
1    1447160702364
2    1447160722364
Name: UNIXTIME, dtype: int64

进入这个

0   2015-11-10 14:05:02.320
1   2015-11-10 14:05:02.364
2   2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

但是,我想使用 pd.apply() 之类的东西来获取与转换后的列一起返回的整个数据集,或者正如我已经写的那样,只需在从 CSV 生成 DataFrame 时创建日期时间。

【问题讨论】:

【参考方案1】:

您可以使用to_datetime 并传递参数unit='ms' 将其作为后处理步骤:

In [5]:
df['UNIXTIME'] = pd.to_datetime(df['UNIXTIME'], unit='ms')
df

Out[5]:
   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

【讨论】:

啊,我完全错过了unit 参数,谢谢,这是一个不错的参数!我也会通过 parse_dates 发出拉取请求以将其包含在 .read_csv 中。 这可能会因为时区问题导致时间错误。 @PengjuZhao OP 的问题没有提到时区,因为 Teudimundo 的回答解决了这个问题 一个建议是,也许您可​​以尝试将 Teudimundo 的答案添加到您的答案中。这对像我这样的新手很有用。 @PengjuZhao 蚕食其他用户的答案是不好的做法,我不会这样做,但其他人会这样做。我认为只要它们足够不同,多个答案就可以了【参考方案2】:

我使用@EdChum 解决方案,但我添加了时区管理:

df['UNIXTIME']=pd.DatetimeIndex(pd.to_datetime(pd['UNIXTIME'], unit='ms'))\
                 .tz_localize('UTC' )\
                 .tz_convert('America/New_York')

tz_localize 表示时间戳应被视为与“UTC”相关,然后tz_convert 实际上将日期/时间移动到正确的时区(在本例中为“America/New_York”)。

请注意,它已被转换为 DatetimeIndex,因为 tz_ 方法仅适用于系列的索引。由于 Pandas 0.15 可以使用 .dt:

df['UNIXTIME']=pd.to_datetime(df['UNIXTIME'], unit='ms')\
                 .dt.tz_localize('UTC' )\
                 .dt.tz_convert('America/New_York')

【讨论】:

此方法最适合雅虎时间戳转换。第二个不是第一个。 同意,第二个在管理时区方面做得很好 - 获得了跨越日期的开始时间和结束时间的结果,这解决了这个问题('America/Chicago');观察语法,出现意外的行结束错误。 每个日期时间都包含一个“-05:00”附录,以小时为单位表示时区之间的差异。排除它的最佳方法是什么? 您看到 panda 是如何呈现值的,该列在内部使用 datetime 类型。如果您希望使用您喜欢的格式表示日期时间的字符串,可以使用df['UNIXTIME'].dt.strftime(...) (pandas.pydata.org/pandas-docs/stable/reference/api/…),请注意结果是一系列字符串值。如果将其分配给同一列:df['UNIXTIME'] = df['UNIXTIME'].dt.strftime(...),您将无法再将该列中的值用作日期时间,因为它们将是字符串。【参考方案3】:

我想出了一个解决方案:

convert = lambda x: datetime.datetime.fromtimestamp(float(x) / 1e3)

df = pd.read_csv(StringIO(data), parse_dates=['UNIXTIME'], date_parser=convert)

我仍然不确定这是否是最好的。

【讨论】:

【参考方案4】:

如果您知道时间戳单位,请使用Series.astype

df['UNIXTIME'].astype('datetime64[ms]')

0   2015-11-10 13:05:02.320
1   2015-11-10 13:05:02.364
2   2015-11-10 13:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

要返回整个 DataFrame,请使用

df.astype('UNIXTIME': 'datetime64[ms]')

   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

【讨论】:

以上是关于Pandas 将带有 unix 时间戳(以毫秒为单位)的行转换为日期时间的主要内容,如果未能解决你的问题,请参考以下文章

HSQLDB (HyperSQL) - 如何以毫秒精度将 UNIX 时间戳作为数字获取

BigQuery 没有以毫秒为单位处理带有分区列的时间戳

Java:Unix时间以毫秒为单位

Razor 视图中的 Epoch/Unix 时间戳(以毫秒为单位)到日期时间

Python pandas 带有 to_csv 的大浮点数

Freemarker 以毫秒为单位将时间戳转换为带有时区的日期