Pandas 分配 Lambda 函数
Posted
技术标签:
【中文标题】Pandas 分配 Lambda 函数【英文标题】:Pandas Assign Lambda Function 【发布时间】:2017-12-08 16:36:32 【问题描述】:我有一个 DataFrame,它有一个打开时间和一个关闭时间,我正在尝试计算以毫秒为单位的差异。
我的代码目前是这样的
df = df.assign(Latency=lambda d: d.CloseTimeStamp - d.CreationTimeStamp)
df.Latency = df.apply(lambda d: d.Latency.total_seconds() * 1000., axis=1)
但是,我想知道为什么我不能像这样单线作战
df = df.assign(Latency=lambda d: (d.CloseTimeStamp - d.CreationTimeStamp).total_seconds() * 1000.)
当我尝试后者时,我得到AttributeError: 'Series' object has no attribute 'total_seconds'
【问题讨论】:
它是如何工作的? 【参考方案1】:总秒数在.dt
属性内,所以应该可以:
df = df.assign(Latency=lambda d: (d.CloseTimeStamp - d.CreationTimeStamp).dt.total_seconds() * 1000.)
话虽如此,也不需要 lambda 函数:
df = df.assign(Latency=(df.CloseTimeStamp - df.CreationTimeStamp).dt.total_seconds() * 1000.)
更快。
关于效率的进一步说明:df.assign()
构建了一个全新的数据框对象;如果您打算将此对象分配回df
,则最好就地修改df
:
df['Latency'] = (df.CloseTimeStamp - df.CreationTimeStamp).dt.total_seconds() * 1000.
【讨论】:
【参考方案2】:需要.dt
访问器,因为使用datetime Series
,.dt
如果DatetimeIndex
则省略:
df = df.assign(Latency=lambda d: (d.CloseTimeStamp - d.CreationTimeStamp).dt.total_seconds() * 1000.)
没有 lambda 的解决方案:
df = df.assign(Latency=(df.CloseTimeStamp - df.CreationTimeStamp).dt.total_seconds() * 1000.)
...没有assign
的解决方案:
df['Latency'] = (df.CloseTimeStamp - df.CreationTimeStamp).dt.total_seconds() * 1000.
【讨论】:
以上是关于Pandas 分配 Lambda 函数的主要内容,如果未能解决你的问题,请参考以下文章
如何将 lambda 函数正确应用到 pandas 数据框列
在 pandas 和 numpy 中聚合 lambda 函数
pandas基于applymap函数和lambda条件判断并基于规则函数更新dataframe中所有数据列数值内容的值(Conditionally updating values in pandas