数据帧上的 spark GROUPED_MAP udf 是不是并行运行？

Posted 2023-04-13

技术标签:

【中文标题】数据帧上的 spark GROUPED_MAP udf 是不是并行运行？【英文标题】：Does spark GROUPED_MAP udf on a data frame run parallelly?数据帧上的 spark GROUPED_MAP udf 是否并行运行？ 【发布时间】：2020-08-10 18:46:03 【问题描述】：

我正在尝试应用 PandasUDFType.GROUPED_MAP 函数，该函数将数据帧作为输入并产生数据帧作为输出。当我执行 sdf.groupby(key).apply(pandas_udf) 时，它是根据可用资源将函数并行应用于多个组，还是一个接一个地依次应用到多个组？我没有更改任何火花的默认设置。如果我想在组上并行执行 udf，我可以采用哪些其他替代方法。

【问题讨论】：

【参考方案1】：

是的，UDF 是并行执行的，但执行不如 spark 原生函数优化。

更多信息在这里： Spark functions vs UDF performance?

【讨论】：

以上是关于数据帧上的 spark GROUPED_MAP udf 是不是并行运行？的主要内容，如果未能解决你的问题，请参考以下文章

带有包含地图的数组的数据帧上的 Spark 过滤器

具有大量列的数据帧上的 Spark 窗口函数

pyspark 数据帧上的向量操作

为什么过滤器在spark数据帧上默认删除空值？

pyspark 数据帧上的复杂逻辑，包括前一行现有值以及动态生成的前一行值

如何使用 spark-scala 在 spark 数据帧上执行枢轴？