如何将多个功能应用于dask数据帧的多个块?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将多个功能应用于dask数据帧的多个块?相关的知识,希望对你有一定的参考价值。

我有一个500,000行和3列的数据框。我想为数据帧中的每5,000行(即100块)计算三个函数的结果。定义了三个函数中的两个,而第三个是第3列中值的平均值。

目前,我首先提取一个块,然后计算该块的函数结果。对于第3列的平均值,我正在使用df.iloc[:,2].compute().mean(),但其他功能在dask之外执行。

是否有一种方法可以利用dask的多线程功能,将整个数据帧和块大小作为输入,并让它自动执行相同的功能?这感觉就像是使用Dask的更合适的方法。

而且,这对我来说似乎是一个基本的问题,所以,如果这是重复的问题,请指出我正确的位置(我是新来的,到目前为止,我可能没有寻找正确的东西)。

我有一个500,000行和3列的数据框。我想为数据帧中的每5,000行(即100块)计算三个函数的结果。三个中的两个...

答案

您可以创建一个人工列,将索引分为这100个块。

以上是关于如何将多个功能应用于dask数据帧的多个块?的主要内容,如果未能解决你的问题,请参考以下文章

Dask数据框中的多个聚合用户定义函数

Pyspark - 如何将多个数据帧的列连接成一个数据帧的列

R中多个数据帧的相同功能

如何将*多个*功能应用于熊猫 groupby 应用?

将 MultiIndex Pandas 数据帧乘以来自另一个数据帧的多个标量

如何将具有不同参数的多个sklearn算法应用于多个数据帧?