如何使用 jar 文件运行 pyspark?
Posted
技术标签:
【中文标题】如何使用 jar 文件运行 pyspark?【英文标题】:How to run pyspark with jar files? 【发布时间】:2015-09-24 12:46:20 【问题描述】:我有一个运行 pyspark 时需要附加的 jar 文件。以下是我尝试的一些代码,我在这里做错了什么?
script.py 有类似的 python 代码。我想将其作为 pyspark 应用程序运行。
print "Hello world"
以下运行正常,但在 pyspark 上无法运行
spark-submit --jars somejarfile2.1.0.jar script.py
尝试的代码:(运行但不显示 Hello world 的输出)。
pyspark --jar somejarfile2.1.0.jar script.py
谢谢!
【问题讨论】:
正确的语法是`--jars JARS`。 不运行是什么意思? spark-submit 在 python 上运行。我需要它来使用 python + spark,即 pyspark。我在 script.py 中调用了一些 pyspark 库。虽然 spark-submit 是 spark,但我收到错误消息,指出 pyspark 未使用 spark-submit 运行。spark-submit
在 Python 代码中工作得很好,在那里使用 --jars
没有任何问题。请发布可重现的示例和您看到的错误。
我会看看这个。谢谢。
您也可以在 spark-defaults.conf 中设置 spark.driver.extraClassPath(这是您的 spark 安装的 conf 文件夹)
【参考方案1】:
如果你想运行 spark job 那么你需要使用
spark-submit --master <mode> --jars <jar_file> <code>.py
或者如果你想运行一个 pyspark shell 那么你需要指定 jar.
pyspark --jars JAR1, JAR2, JAR3
【讨论】:
以上是关于如何使用 jar 文件运行 pyspark?的主要内容,如果未能解决你的问题,请参考以下文章
如何使 pyspark 和 ML(无 RDD)与大型 csv 一起工作?