运行pyspark时出错

Posted

技术标签:

【中文标题】运行pyspark时出错【英文标题】:Error when running pyspark 【发布时间】:2017-10-04 04:00:13 【问题描述】:

我尝试通过终端运行 pyspark。在我的终端上,我运行 snotebook,它会自动加载 jupiter。之后,当我选择python3时,错误从终端出来。

[IPKernelApp] 警告 |处理 PYTHONSTARTUP 文件时出现未知错误 /Users/simon/spark-1.6.0-bin-hadoop2.6/python/pyspark/shell.py

这是我的 .bash_profile 设置:

export PATH="/Users/simon/anaconda/bin:$PATH"

export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6

export PATH=$PATH:$SPARK_HOME/bin

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

export PYSPARK_PYTHON=python3

alias snotebook='$SPARK_HOME/bin/pyspark'

如果您有任何想法,请告诉我,谢谢。

【问题讨论】:

【参考方案1】:

您需要在代码中添加以下行

PYSPARK_DRIVER_PYTHON=ipython

PYSPARK_DRIVER_PYTHON=ipython3

希望它会有所帮助。

【讨论】:

【参考方案2】:

在我的例子中,我使用的是虚拟环境并且忘记安装 Jupyter,所以它使用的是在 $PATH 中找到的某个版本。在环境中安装它可以解决这个问题。

【讨论】:

【参考方案3】:

Spark 现在包含 PySpark 作为安装的一部分,因此请移除 PySpark 库,除非您真的需要它。

删除旧 Spark,安装最新版本。 安装 (pip) findspark 库。

在 Jupiter 中,导入并使用 findspark:

import findspark
findspark.init()

快速 PySpark / Python 3 检查

import findspark

findspark.init()

from pyspark import SparkContext 

sc = SparkContext()

print(sc)

sc.stop()

【讨论】:

以上是关于运行pyspark时出错的主要内容,如果未能解决你的问题,请参考以下文章

查找“pyspark.worker”的模块规范时出错(ModuleNotFoundError:没有名为“pyspark”的模块)

在 pyspark mlib 中运行逻辑回归时出错

运行 pyspark kafka steam 时出错

由于 python 版本,运行 PySpark DataProc Job 时出错

当我在 pyspark EMR 5.x 中运行用 Java 编写的 hive UDF 时出错

Apache Spark:启动 PySpark 时出错