pyspark 无法启动

Posted

技术标签:

【中文标题】pyspark 无法启动【英文标题】:pyspark not able to start 【发布时间】:2018-09-07 10:09:10 【问题描述】:

我使用的是 Windows 8.1 操作系统。我安装了 apache spark,然后安装了 Java JDK。我在 windows 中使用 git bash。我在 git bash.bash_profile 中有以下设置。

export SPARK_HOME="/c/tools/spark-2.3.1-bin-hadoop2.7" 
export PATH="$SPARK_HOME/bin:$PATH"  
export JAVA_HOME="/c/Program Files (x86)/Java/jdk1.8.0_181/"

当我尝试调用 pyspark 时,出现如下错误。

/c/tools/spark-2.3.1-bin-hadoop2.7/bin/pyspark:第 45 行:python: 找不到命令错误:无法找到或加载主类 org.apache.spark.launcher.Main

我尝试在路径“/c/tools/spark-2.3.1-bin-hadoop2.7/bin/”中运行spark-shell。仍然得到同样的错误。

请帮助我让 pyspark 在我的机器上运行。

【问题讨论】:

请检查是否设置了python路径。关注 [链接]***.com/questions/31665402/… 对我来说没有用。我添加了答案,终于为我工作了 【参考方案1】:

按照博客中的步骤,我终于能够让 pyspark 在 Windows 中运行

http://nishutayaltech.blogspot.com/2015/04/how-to-run-apache-spark-on-windows7-in.html

我不得不安装更多工具并设置环境变量,最后让它工作。

【讨论】:

以上是关于pyspark 无法启动的主要内容,如果未能解决你的问题,请参考以下文章

无法让 pyspark 作业在 hadoop 集群的所有节点上运行

Apache Spark:启动 PySpark 时出错

PySpark 未从 Windows 命令提示符启动

无法使用 Pyspark 访问外部 Hive 元存储

pyspark 下 Spark Streaming 启动监听文件流 时报错及解决方法。

将 sql server jar 添加到 pyspark 的类路径后无法查询 hive