Pyspark SIZE 函数本身可以工作,但在 UDF 中它没有 [关闭]

Posted

技术标签:

【中文标题】Pyspark SIZE 函数本身可以工作,但在 UDF 中它没有 [关闭]【英文标题】:Pyspark SIZE function works in itself, but in UDF it doesnt [closed] 【发布时间】:2020-01-02 11:43:09 【问题描述】:

无法理解为什么 SIZE 本身有效,但在 UDF 中无效。输出为 IntegerType,如上图所示。

例如与 max 一起使用。

【问题讨论】:

max() 也是一个 python 函数,size() 不是。对于max(),它可能指的是python函数调用。 @samkart ,但是,为什么它不工作 refer - 你的函数应该是 python 函数,而不是原生 spark 函数。 【参考方案1】:

@samkart 您的函数应该是 python 函数,而不是原生 spark 函数。 嗯,好的,这就解释了。

很好奇,spark 文档中哪里提到了这个?

【讨论】:

以上是关于Pyspark SIZE 函数本身可以工作,但在 UDF 中它没有 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

自定义模块中的函数在 PySpark 中不起作用,但在交互模式下输入时它们起作用

MATLAB 函数 open 在工作区中有效,但在函数中无效

在pyspark中替换循环到并行进程

udf(用户定义函数)如何在 pyspark 中工作?

Pyspark 轮函数未按预期工作

集群终止但在本地工作