如何使用 jar 文件运行 pyspark?

Posted

技术标签:

【中文标题】如何使用 jar 文件运行 pyspark?【英文标题】:How to run pyspark with jar files? 【发布时间】:2015-09-24 12:46:20 【问题描述】:

我有一个运行 pyspark 时需要附加的 jar 文件。以下是我尝试的一些代码,我在这里做错了什么?

script.py 有类似的 python 代码。我想将其作为 pyspark 应用程序运行。

print "Hello world"

以下运行正常,但在 pyspark 上无法运行

spark-submit --jars somejarfile2.1.0.jar  script.py

尝试的代码:(运行但不显示 Hello world 的输出)。

pyspark --jar somejarfile2.1.0.jar  script.py

谢谢!

【问题讨论】:

正确的语法是`--jars JARS`。 不运行是什么意思? spark-submit 在 python 上运行。我需要它来使用 python + spark,即 pyspark。我在 script.py 中调用了一些 pyspark 库。虽然 spark-submit 是 spark,但我收到错误消息,指出 pyspark 未使用 spark-submit 运行。 spark-submit 在 Python 代码中工作得很好,在那里使用 --jars 没有任何问题。请发布可重现的示例和您看到的错误。 我会看看这个。谢谢。 您也可以在 spark-defaults.conf 中设置 spark.driver.extraClassPath(这是您的 spark 安装的 conf 文件夹) 【参考方案1】:

如果你想运行 spark job 那么你需要使用

spark-submit --master <mode> --jars <jar_file> <code>.py

或者如果你想运行一个 pyspark shell 那么你需要指定 jar.

pyspark --jars JAR1, JAR2, JAR3

【讨论】:

以上是关于如何使用 jar 文件运行 pyspark?的主要内容,如果未能解决你的问题,请参考以下文章

如何使 pyspark 和 ML(无 RDD)与大型 csv 一起工作?

如何使 .jar 文件在我的计算机上运行? [复制]

如何使 Pyspark 脚本在 Amazon EMR 上运行以识别 boto3 模块?它说找不到模块

如何从 pyspark 中的本地 jar 导入包?

如何使用 pySpark 使多个 json 处理更快?

如何使用 AWS Lambda 在 AWS EMR 上运行 PySpark