如何在 Pyspark 中运行 Python 脚本
Posted
技术标签:
【中文标题】如何在 Pyspark 中运行 Python 脚本【英文标题】:How to run Python Script in Pyspark 【发布时间】:2017-02-23 17:40:41 【问题描述】:我正在尝试在 cloudera VM 上的 Pyspark 中运行 Python 脚本
首先我运行 pyspark
$ which pyspark
$ pyspark
启动火花后,我尝试了:
$ spark-submit /home/cloudera/test.py
给我“名称'spark'未定义”
$ ./bin/spark-submit /home/cloudera/test.py
给我“SyntaxError:无效语法”
我知道网上有很多类似的问题,但我还是想不通。有人可以帮忙吗?
【问题讨论】:
【参考方案1】:您必须从集群本身运行 spark-submit shell。您不必 pyspark 进入它。
如果您想以交互方式运行代码(逐行键入或复制/粘贴),那么您可以使用 pyspark。
希望有帮助
【讨论】:
【参考方案2】:通过调用 spark-shell 检查 spark 是否按预期安装。还可以尝试 PySpark Shell 并尝试测试 test.py 文件中的内容。成功后尝试 spark-submit
【讨论】:
以上是关于如何在 Pyspark 中运行 Python 脚本的主要内容,如果未能解决你的问题,请参考以下文章
如何在远程 Spark 集群上运行本地 Python 脚本?
如何在 oozie 4.2.0 上运行火花动作(pyspark 脚本)?
pyspark:运行 python 脚本并在命令行上查看结果