在熊猫中将字符串转换为timedelta

Posted

技术标签:

【中文标题】在熊猫中将字符串转换为timedelta【英文标题】:Convert string to timedelta in pandas 【发布时间】:2019-05-01 18:06:59 【问题描述】:

我有一个时间戳格式为HHHHH:MM的系列:

timestamp = pd.Series(['34:23', '125:26', '15234:52'], index=index)

我想将其转换为 timedelta 系列。

现在我设法在单个字符串上做到这一点:

str[:-3]
str[-2:]
timedelta(hours=int(str[:-3]),minutes=int(str[-2:]))

如果可能的话,我想以更简洁的方式将它应用到整个系列中。有没有办法做到这一点?

【问题讨论】:

【参考方案1】:

您可以使用按列排列的 Pandas 方法:

s = pd.Series(['34:23','125:26','15234:52'])

v = s.str.split(':', expand=True).astype(int)
s = pd.to_timedelta(v[0], unit='h') + pd.to_timedelta(v[1], unit='m')

print(s)

0     1 days 10:23:00
1     5 days 05:26:00
2   634 days 18:52:00
dtype: timedelta64[ns]

正如 cmets 中指出的,这也可以在一行中实现,尽管不太清楚:

s = pd.to_timedelta((s.str.split(':', expand=True).astype(int) * (60, 1)).sum(axis=1), unit='min')

【讨论】:

一行:pd.to_timedelta((s.str.split(':', expand=True).astype(int) * (60, 1)).sum(axis=1), unit='min')【参考方案2】:

我会这样做:

timestamp = pd.Series(['34:23','125:26','15234:52'])
x = timestamp.str.split(":").apply(lambda x: int(x[0])*60 + int(x[1]))
timestamp = pd.to_timedelta(x, unit='s')

【讨论】:

我喜欢@jpp 使用的expand=True 参数。【参考方案3】:

像这样以秒为单位将增量解析为pd.to_timedelta 的参数,

In [1]: import pandas as pd
In [2]: ts = pd.Series(['34:23','125:26','15234:52'])
In [3]: secs = 60 * ts.apply(lambda x: 60*int(x[:-3]) + int(x[-2:]))
In [4]: pd.to_timedelta(secs, 's')
Out[4]:
0     1 days 10:23:00
1     5 days 05:26:00
2   634 days 18:52:00
dtype: timedelta64[ns]

编辑:错过了 ercyp 的答案,该答案也可以,但您需要将 pd.to_timedelta 的参数乘以 60,因为如果我没记错的话,除了对前一小时取模外,分钟不能作为经过时间的度量。

【讨论】:

【参考方案4】:

你可以使用pandas.Series.apply,即:

def convert(args):
    return timedelta(hours=int(args[:-3]),minutes=int(args[-2:]))
s = pd.Series(['34:23','125:26','15234:52'])
s = s.apply(convert)

【讨论】:

以上是关于在熊猫中将字符串转换为timedelta的主要内容,如果未能解决你的问题,请参考以下文章

在熊猫中将字符串转换为小写[重复]

如何在熊猫中将字符串日期转换为数字[重复]

ValueError:无法在熊猫中将字符串转换为浮点数

如何在python中将文本字符串列表转换为熊猫数据框?

如何在熊猫中将 4 位数字转换为小时:分钟时间格式

在 Python Pandas DataFrame 中将 timedelta64[ns] 列转换为秒