数据帧上的 spark GROUPED_MAP udf 是不是并行运行?
Posted
技术标签:
【中文标题】数据帧上的 spark GROUPED_MAP udf 是不是并行运行?【英文标题】:Does spark GROUPED_MAP udf on a data frame run parallelly?数据帧上的 spark GROUPED_MAP udf 是否并行运行? 【发布时间】:2020-08-10 18:46:03 【问题描述】:我正在尝试应用 PandasUDFType.GROUPED_MAP 函数,该函数将数据帧作为输入并产生数据帧作为输出。当我执行 sdf.groupby(key).apply(pandas_udf) 时,它是根据可用资源将函数并行应用于多个组,还是一个接一个地依次应用到多个组? 我没有更改任何火花的默认设置。如果我想在组上并行执行 udf,我可以采用哪些其他替代方法。
【问题讨论】:
【参考方案1】:是的,UDF 是并行执行的,但执行不如 spark 原生函数优化。
更多信息在这里: Spark functions vs UDF performance?
【讨论】:
以上是关于数据帧上的 spark GROUPED_MAP udf 是不是并行运行?的主要内容,如果未能解决你的问题,请参考以下文章