如何在PySpark中调用python函数?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在PySpark中调用python函数?相关的知识,希望对你有一定的参考价值。

我有多个文件(CSV和XML),我想做一些过滤器。我定义了一个functoin做所有这些过滤器,我想知道如何将其称为适用于我的CSV文件? PS:我的数据框的类型是:pyspark.sql.dataframe.DataFrame 提前致谢

答案

例如,如果您将第一个CSV文件读作df1 = spark.read.csv(..),将第二个CSV文件读作df2 = spark.read.csv(..)

将CSV文件中的所有多个pyspark.sql.dataframe.DataFrame单独包装到列表中。

csvList = [df1, df2, ...]

然后,

for i in csvList:
    YourFilterOperation(i)

基本上,对于来自存储在i中的CSV文件的pyspark.sql.dataframe.DataFrame的每个csvList,它应该逐个迭代,进入循环并执行您编写的任何过滤操作。

由于您没有提供任何可重现的代码,我无法看到它是否适用于我的Mac。

以上是关于如何在PySpark中调用python函数?的主要内容,如果未能解决你的问题,请参考以下文章

可从 PySpark/Python 调用的 Spark(2.3+)Java 函数 [重复]

从Pyspark UDF调用另一个自定义Python函数

PySpark理解wordcount.py

pyspark对应的scala代码PythonRDD对象

从 Scala Spark 代码调用 Pyspark 脚本

如何使用 PySpark 并行化我的文件处理程序