Pyspark 系统找不到指定的路径

Posted

技术标签:

【中文标题】Pyspark 系统找不到指定的路径【英文标题】:Pyspark The system cannot find the path specified 【发布时间】:2020-01-28 02:57:09 【问题描述】:

我是 pyspark 的新手。我在我的 Windows 机器上安装了 Pyspark

我从Spark download url下载了apache spark

我在环境变量中设置了 HADOOP_HOME 和 SPARK_HOME

path variable

我的 SPARK_HOME=C:\spark\spark-2.4.4-bin-hadoop2.7

我的 HADOOP_HOME=C:\spark\spark-2.4.4-bin-hadoop2.7

但是当我在命令提示符下输入 pyspark 时,我得到了

系统找不到指定的路径。

即使我要进入 bin 目录并执行 pyspark,它也会抛出相同的异常

不知道我在这里错过了什么。请在这里帮助我

【问题讨论】:

这能回答你的问题吗? The system cannot find the path specified error while running pyspark 【参考方案1】:

设置路径如下:

Java

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_73

PATH = C:\Program Files\Java\jdk1.8.0_73\bin

Hadoop

创建文件夹 Hadoop/bin 并将 winutils.exe 文件放入 bin 文件夹中。

HADOOP_HOME = C:\Hadoop

PATH = C:\Hadoop\bin

火花

下载任何火花版本(例如:spark-2.4.4-bin-hadoop2.7)

SPARK_HOME = C:\software\spark-2.3.1-bin-hadoop2.7

PATH = C:\software\spark-2.3.1-bin-hadoop2.7\bin

【讨论】:

【参考方案2】:

安装 spark 最简单的方法是使用python findspark

pip install findspark

import findspark

finspark.init('\path\to\extracted\binaries\folder')

import pyspark

【讨论】:

【参考方案3】:

我有同样的问题,做了多项研究,最后我发现我有 jdk 和 jdk1.8.0_261 和 JRE jre1.8.0_271

作为解决方案,我卸载了 jdk 和 jre,然后安装了 jdk1.8.0_261,它基本上都安装了相同的版本 jdk1.8.0_261 jre1.8.0_261

解决了这个问题。

【讨论】:

【参考方案4】:

尝试定位pyspark路径,然后导出该路径,然后安装findSpark包,它会完成剩下的工作,例如假设我的pyspark路径是:“/usr/spark-2.4.4/python /pyspark/" 所以我要做的是:

!export SPARK_HOME="/usr/spark-2.4.4/python/pyspark/"
!pip install findspark

import findspark
findspark.init()
from pyspark.sql import SparkSession 

【讨论】:

【参考方案5】:

尝试添加此代码段。

import os
import sys
os.environ['HADOOP_HOME'] = "Your_Hadoop_Home_Path"
# os.environ['HADOOP_HOME'] = "~file_path~\Hadoop\hadoop-3.x.x"

#这里实际做的是改变HADOOP_HOME环境路径

【讨论】:

似乎是环境问题而不是代码问题。添加到os.environ 的路径不会解决问题 是的,这是在改变环境,也就是改变HADOOP_HOME环境

以上是关于Pyspark 系统找不到指定的路径的主要内容,如果未能解决你的问题,请参考以下文章

PySpark,Win10 - 系统找不到指定的路径

系统找不到指定路径,如何解决?

系统找不到指定的路径

PADS Layout 出现系统找不到指定路径怎么处理

系统找不到指定路径

系统找不到指定的路径怎么办