Pandas:将 Lambda 应用于多个数据帧

Posted

技术标签:

【中文标题】Pandas:将 Lambda 应用于多个数据帧【英文标题】:Pandas: Applying Lambda to Multiple Data Frames 【发布时间】:2015-09-13 15:44:16 【问题描述】:

我试图弄清楚如何将 lambda 函数同时应用于多个数据帧,而无需先将数据帧合并在一起。我正在处理大型数据集(>60MM 记录),我需要格外小心内存管理。

我希望有一种方法可以将 lambda 应用到底层数据帧,这样我就可以避免先将它们拼接在一起,然后在继续下一步之前从内存中删除中间数据帧的成本过程。

我有使用基于 HDF5 的数据帧来避免内存问题的经验,但我宁愿先尝试探索不同的东西。

我提供了一个玩具问题来帮助演示我在说什么。

import numpy as np
import pandas as pd

# Here's an arbitrary function to use with lambda
def someFunction(input1, input2, input3, input4):
    theSum = input1 + input2
    theAverage = (input1 + input2 + input3 + input4) / 4
    theProduct = input2 * input3 * input4
    return pd.Series('Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct)

# Cook up some dummy dataframes
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB'))
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C'))
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D'))

# Currently, I merge the dataframes together and then apply the lambda function
dfConsolodated = pd.concat([df1, df2, df3], axis=1)

# This works just fine, but merging the dataframes seems like an extra step
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1)

# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this:
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies.
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1)

【问题讨论】:

很难理解这是否值得回答,因为您当前的问题可以在不应用 lambda 和连接的情况下解决,您能否解释一下您真正想要实现的目标跨度> 在我的示例代码中,我从三个数据帧 [df1, df2, df3] 开始。然后我需要创建一个名为 dfConsolodated 的中间数据帧,它只是三个基础数据帧全部连接在一起。这对玩具问题很好,但是当我在每个数据帧上处理超过 6000 万条记录时,我可以使用 dfConsolodated 表快速膨胀内存。真正的目标是首先通过避免 concat 来节省系统资源。 所有的DataFrames的形状都一样吗? 某种程度上,它们具有相同的索引。它们垂直高度相同,但宽度可能不同。 如果内存是您的限制条件,您可以通过连接 DataFrame 来坚持原来的工作流程。但是,请尝试分批处理它们(例如 1m 行),然后将结果连接起来。 【参考方案1】:

我知道这个问题有点老了,但这是我想出的一种方法。 这不是很好,但它有效。

基本思想是查询应用函数内的第二个数据框。 通过使用传递的系列的名称,您可以识别列/索引并使用它从其他数据帧中检索所需的值。

def func(x, other):
    other_value = other.loc[x.name]
    return your_actual_method(x, other_value)

result = df1.apply(lambda x: func(x, df2))

【讨论】:

【参考方案2】:

一种选择是显式创建所需的聚合:

theSum = df1.A + df1.B
theAverage = (df1.A + df1.B + df2.C + df3.D) / 4.
theProduct = df1.B * df2.C * df3.D
theResult = pd.concat([theSum, theAverage, theProduct])
theResult.columns = ['Sum', 'Average', 'Product']

另一种可能性是使用query,但这实际上取决于您的用例以及您打算如何聚合数据。这是每个可能适用于您的文档的示例。

map(lambda frame: frame.query(expr), [df, df2])

【讨论】:

这在示例中有效,因为我示例中的数学很简单。实际上,我使用的是更复杂的统计模型,它使用了一些数值积分。我认为我无法摆脱显式创建聚合。由于模型的复杂性,我认为我无法将数据传递给函数参数。 我应该提到查询的想法值得研究,谢谢你的想法,我会试一试。回到我最初的问题,是否可以跨多个单独的数据帧使用 lambda? 我注意到您是一名财务人员。我实际上正在创建一个包含每日期权头寸时间序列的大型数据框,并且我通过欧洲 black-scholes 模型对它们进行定价,以获得价格和所有典型的希腊人。然后,我计算希腊人的每日损益归因,以获得归因于所有相关敏感性的每日损益时间序列。如您之前提到的,我无法通过显式创建聚合来运行 BS。

以上是关于Pandas:将 Lambda 应用于多个数据帧的主要内容,如果未能解决你的问题,请参考以下文章

python 将函数应用于pandas数据帧中的两列

Pandas 将多个数据帧与时间戳索引对齐

对 Pandas 数据框逐元素应用条件

使用 lambda 删除几行 pandas 数据帧

如何在聚合的 pandas 数据帧上运行多个函数

如何按行将函数应用于 PySpark 数据帧的一组列?