如何将多个功能应用于dask数据帧的多个块?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将多个功能应用于dask数据帧的多个块?相关的知识,希望对你有一定的参考价值。
我有一个500,000行和3列的数据框。我想为数据帧中的每5,000行(即100块)计算三个函数的结果。定义了三个函数中的两个,而第三个是第3列中值的平均值。
目前,我首先提取一个块,然后计算该块的函数结果。对于第3列的平均值,我正在使用df.iloc[:,2].compute().mean()
,但其他功能在dask之外执行。
是否有一种方法可以利用dask的多线程功能,将整个数据帧和块大小作为输入,并让它自动执行相同的功能?这感觉就像是使用Dask的更合适的方法。
而且,这对我来说似乎是一个基本的问题,所以,如果这是重复的问题,请指出我正确的位置(我是新来的,到目前为止,我可能没有寻找正确的东西)。
我有一个500,000行和3列的数据框。我想为数据帧中的每5,000行(即100块)计算三个函数的结果。三个中的两个...
答案
您可以创建一个人工列,将索引分为这100个块。
以上是关于如何将多个功能应用于dask数据帧的多个块?的主要内容,如果未能解决你的问题,请参考以下文章
Pyspark - 如何将多个数据帧的列连接成一个数据帧的列