数据帧上的 spark GROUPED_MAP udf 是不是并行运行?

Posted

技术标签:

【中文标题】数据帧上的 spark GROUPED_MAP udf 是不是并行运行?【英文标题】:Does spark GROUPED_MAP udf on a data frame run parallelly?数据帧上的 spark GROUPED_MAP udf 是否并行运行? 【发布时间】:2020-08-10 18:46:03 【问题描述】:

我正在尝试应用 PandasUDFType.GROUPED_MAP 函数,该函数将数据帧作为输入并产生数据帧作为输出。当我执行 sdf.groupby(key).apply(pandas_udf) 时,它是根据可用资源将函数并行应用于多个组,还是一个接一个地依次应用到多个组? 我没有更改任何火花的默认设置。如果我想在组上并行执行 udf,我可以采用哪些其他替代方法。

【问题讨论】:

【参考方案1】:

是的,UDF 是并行执行的,但执行不如 spark 原生函数优化。

更多信息在这里: Spark functions vs UDF performance?

【讨论】:

以上是关于数据帧上的 spark GROUPED_MAP udf 是不是并行运行?的主要内容,如果未能解决你的问题,请参考以下文章

带有包含地图的数组的数据帧上的 Spark 过滤器

具有大量列的数据帧上的 Spark 窗口函数

pyspark 数据帧上的向量操作

为什么过滤器在spark数据帧上默认删除空值?

pyspark 数据帧上的复杂逻辑,包括前一行现有值以及动态生成的前一行值

如何使用 spark-scala 在 spark 数据帧上执行枢轴?