将“SPARK_HOME”设置为啥?

Posted

技术标签:

【中文标题】将“SPARK_HOME”设置为啥?【英文标题】:What to set `SPARK_HOME` to?将“SPARK_HOME”设置为什么? 【发布时间】:2015-08-29 17:56:20 【问题描述】:

安装了 apache-maven-3.3.3,scala 2.11.6,然后运行:

$ git clone git://github.com/apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package

最后:

$ git clone https://github.com/apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests

然后运行服务器:

$ bin/zeppelin-daemon.sh start

运行一个以%pyspark 开头的简单笔记本时,我收到一个关于找不到py4j 的错误。刚刚做了pip install py4j (ref)。

现在我收到此错误:

pyspark is not responding Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark.py", line 22, in <module>
    from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf

我尝试将我的SPARK_HOME 设置为:/spark/python:/spark/python/lib。没有变化。

【问题讨论】:

【参考方案1】:

需要两个环境变量:

SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH

【讨论】:

以上是关于将“SPARK_HOME”设置为啥?的主要内容,如果未能解决你的问题,请参考以下文章

如何设置 SPARK_HOME 变量?

findspark.init() 失败 - 无法正确设置 SPARK_HOME 环境变量

设置了SPARK_HOME env变量,但Jupyter Notebook没有看到它。 (视窗)

Zeppelin 与 Kubernetes。在非本地模式的解释器设置中未指定 SPARK_HOME

提交火花期间 pyspark 出现 Windows Spark_Home 错误

vscode配置spark