运行pyspark时出错
Posted
技术标签:
【中文标题】运行pyspark时出错【英文标题】:Error when running pyspark 【发布时间】:2017-10-04 04:00:13 【问题描述】:我尝试通过终端运行 pyspark。在我的终端上,我运行 snotebook,它会自动加载 jupiter。之后,当我选择python3时,错误从终端出来。
[IPKernelApp] 警告 |处理 PYTHONSTARTUP 文件时出现未知错误 /Users/simon/spark-1.6.0-bin-hadoop2.6/python/pyspark/shell.py
这是我的 .bash_profile 设置:
export PATH="/Users/simon/anaconda/bin:$PATH"
export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
export PYSPARK_PYTHON=python3
alias snotebook='$SPARK_HOME/bin/pyspark'
如果您有任何想法,请告诉我,谢谢。
【问题讨论】:
【参考方案1】:您需要在代码中添加以下行
PYSPARK_DRIVER_PYTHON=ipython
或
PYSPARK_DRIVER_PYTHON=ipython3
希望它会有所帮助。
【讨论】:
【参考方案2】:在我的例子中,我使用的是虚拟环境并且忘记安装 Jupyter,所以它使用的是在 $PATH
中找到的某个版本。在环境中安装它可以解决这个问题。
【讨论】:
【参考方案3】:Spark 现在包含 PySpark 作为安装的一部分,因此请移除 PySpark 库,除非您真的需要它。
删除旧 Spark,安装最新版本。 安装 (pip) findspark 库。
在 Jupiter 中,导入并使用 findspark:
import findspark
findspark.init()
快速 PySpark / Python 3 检查
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext()
print(sc)
sc.stop()
【讨论】:
以上是关于运行pyspark时出错的主要内容,如果未能解决你的问题,请参考以下文章
查找“pyspark.worker”的模块规范时出错(ModuleNotFoundError:没有名为“pyspark”的模块)
由于 python 版本,运行 PySpark DataProc Job 时出错