如何在 Pyspark 中运行 Python 脚本

Posted

技术标签:

【中文标题】如何在 Pyspark 中运行 Python 脚本【英文标题】:How to run Python Script in Pyspark 【发布时间】:2017-02-23 17:40:41 【问题描述】:

我正在尝试在 cloudera VM 上的 Pyspark 中运行 Python 脚本

首先我运行 pyspark

$ which pyspark
$ pyspark

启动火花后,我尝试了:

$ spark-submit /home/cloudera/test.py

给我“名称'spark'未定义”

$ ./bin/spark-submit /home/cloudera/test.py

给我“SyntaxError:无效语法”

我知道网上有很多类似的问题,但我还是想不通。有人可以帮忙吗?

【问题讨论】:

【参考方案1】:

您必须从集群本身运行 spark-submit shell。您不必 pyspark 进入它。

如果您想以交互方式运行代码(逐行键入或复制/粘贴),那么您可以使用 pyspark。

希望有帮助

【讨论】:

【参考方案2】:

通过调用 spark-shell 检查 spark 是否按预期安装。还可以尝试 PySpark Shell 并尝试测试 test.py 文件中的内容。成功后尝试 spark-submit

【讨论】:

以上是关于如何在 Pyspark 中运行 Python 脚本的主要内容,如果未能解决你的问题,请参考以下文章

如何在远程 Spark 集群上运行本地 Python 脚本?

如何在 oozie 4.2.0 上运行火花动作(pyspark 脚本)?

pyspark:运行 python 脚本并在命令行上查看结果

AWS 设置以在 Apache pyspark env 上运行 python 脚本

将 PySpark 作为脚本运行

Python Pyspark 脚本在整个数据集上失败,但适用于单个文件