pandas:从时间戳中提取日期和时间

Posted

技术标签:

【中文标题】pandas:从时间戳中提取日期和时间【英文标题】:pandas: extract date and time from timestamp 【发布时间】:2022-01-23 19:34:01 【问题描述】:

我有一个timestamp 列,其中时间戳采用以下格式

2016-06-16T21:35:17.098+01:00

我想从中提取日期和时间。我做了以下事情:

import datetime as dt

df['timestamp'] = df['timestamp'].apply(lambda x : pd.to_datetime(str(x)))

df['dates'] = df['timestamp'].dt.date

这工作了一段时间。但是突然就不行了。

如果我再次执行df['dates'] = df['timestamp'].dt.date,我会收到以下错误

Can only use .dt accessor with datetimelike values

幸运的是,我已将带有 dates 的数据框保存在 csv 中,但我现在想以 23:00:00.051 的格式创建另一列 time

编辑

从原始数据文件(1500 万个样本)来看,timestamp 列如下所示(前 5 个样本):

            timestamp

0           2016-06-13T00:00:00.051+01:00
1           2016-06-13T00:00:00.718+01:00
2           2016-06-13T00:00:00.985+01:00
3           2016-06-13T00:00:02.431+01:00
4           2016-06-13T00:00:02.737+01:00

以下命令后

df['timestamp'] = df['timestamp'].apply(lambda x : pd.to_datetime(str(x)))

timestamp 列看起来像 dtype 作为 dtype: datetime64[ns]

0    2016-06-12 23:00:00.051
1    2016-06-12 23:00:00.718
2    2016-06-12 23:00:00.985
3    2016-06-12 23:00:02.431
4    2016-06-12 23:00:02.737

最后

df['dates'] = df['timestamp'].dt.date

0           2016-06-12
1           2016-06-12
2           2016-06-12
3           2016-06-12
4           2016-06-12

编辑 2

发现错误。我已经清理了数据并将数据框保存在 csv 文件中,所以我不必再次进行清理。当我读取 csv 时,时间戳 dtype 变为对象。现在我该如何解决这个问题?

【问题讨论】:

这意味着您有一些 duff 值,因此您可以将这些 duff 值强制为NaTdf['timestamp'] = pd.to_datetime(df['timestamp'], errors='coerce') 然后您可以使用dropna 删除这些值,然后您可以调用@987654341 @和以前一样 df.timestamp.isnull().sum() 返回 0 抱歉,除非您发布原始数据和错误代码,否则这将成为一种假设性的姿势练习,会浪费时间 @chintans OT,而不是df['timestamp'].apply(lambda x : pd.to_datetime(str(x))),考虑pd.to_datetime(df['timestamp']) @chintans 要加快转换速度,请指定日期时间字符串的格式 --- 请参阅 this question。 【参考方案1】:

在导入 csv 时,请使用 pandas.read_csv()parse_dates 参数。例如,要将列 utc_datetime 导入为日期时间:

parse_dates = ['utc_datetime']
df = pandas.read_csv('file.csv', parse_dates=parse_dates)

要从时间戳中提取日期,请使用 numpy 而不是 pandas:

df['utc_date'] = numpy.array(df['utc_datetime'].values, dtype='datetime64[D]')

Numpy 日期时间操作明显快于 Pandas 日期时间操作。

【讨论】:

【参考方案2】:

如果日期是字符串形式,则:

import datetime

# this line converts the string object in Timestamp object
df['DateTime'] = [datetime.datetime.strptime(d, "%Y-%m-%d %H:%M") for d in df["DateTime"]]

# extracting date from timestamp
df['Date'] = [datetime.datetime.date(d) for d in df['DateTime']] 

# extracting time from timestamp
df['Time'] = [datetime.datetime.time(d) for d in df['DateTime']] 

如果对象已经是时间戳格式,则跳过第一行代码。

%Y-%m-%d %H:%M 这意味着您的时间戳对象必须采用2016-05-16 12:35:00 之类的形式。

【讨论】:

【参考方案3】:

先这样做:

df['time'] = pd.to_datetime(df['timestamp'])

在您像往常一样进行提取之前:

df['dates'] = df['time'].dt.date

【讨论】:

以上是关于pandas:从时间戳中提取日期和时间的主要内容,如果未能解决你的问题,请参考以下文章

如何从java中的字符串时间戳中提取日期和时间

如何在sequelize ORM中使用从时间戳中选择并提取日期到月份和年份?

无法从 BigQuery 中的时间戳中提取日期

如何从R中具有月份名称的时间戳中提取日期

从长的复杂日期加上时间戳中提取日期?

从时间戳中提取时间?