从 pycharm 运行 spark-submit

Posted

技术标签:

【中文标题】从 pycharm 运行 spark-submit【英文标题】:Running spark-submit from pycharm 【发布时间】:2016-01-07 14:53:50 【问题描述】:

我想弄清楚如何在 PyCharm 中开发 apache-spark 程序。 我关注了link 中的文章。 我定义了 SPARK_HOME 并将 pyspark 添加到 Python 路径。没有错误 在导入 pyspark 模块和自动完成时工作正常。

但是,当我在 PyCharm 中运行程序时,我在定义 SparkContext 时遇到错误。

Error: Must specify a primary resource (JAR or Python or R file)
Run with --help for usage help or --verbose for debug output
...
...
Exception: Java gateway process exited before sending the driver its port number

我设法使用 submit-spark 在终端上运行程序。 我是否需要更改 PyCharm 上的配置或是否有运行 在 PyCharm 中提交火花而不是 python?

【问题讨论】:

这应该可以帮助你medium.com/@gauravmshah/… 【参考方案1】:

如果你在终端 submit-spark 上没问题,你可以 add a run configuration 为你做到这一点。否则,您也可以在Edit Run/Debug Configurations 窗口中看到一些配置。 This post in particular你能带你到那里吗?

【讨论】:

以上是关于从 pycharm 运行 spark-submit的主要内容,如果未能解决你的问题,请参考以下文章

如何从 spark-shell/spark-submit 运行交互式 Spark 应用程序

无法从 spark-submit 分配内存错误到 AWS EMR give

spark-submit之使用pyspark

使用 spark-submit 无法从 hive 中找到表

替代递归运行Spark-submit作业

Pyspark:spark-submit 不像 CLI 那样工作