Pyspark 系统找不到指定的路径
Posted
技术标签:
【中文标题】Pyspark 系统找不到指定的路径【英文标题】:Pyspark The system cannot find the path specified 【发布时间】:2020-01-28 02:57:09 【问题描述】:我是 pyspark 的新手。我在我的 Windows 机器上安装了 Pyspark
我从Spark download url下载了apache spark
我在环境变量中设置了 HADOOP_HOME 和 SPARK_HOME
path variable
我的 SPARK_HOME=C:\spark\spark-2.4.4-bin-hadoop2.7
我的 HADOOP_HOME=C:\spark\spark-2.4.4-bin-hadoop2.7
但是当我在命令提示符下输入 pyspark 时,我得到了
系统找不到指定的路径。
即使我要进入 bin 目录并执行 pyspark,它也会抛出相同的异常
不知道我在这里错过了什么。请在这里帮助我
【问题讨论】:
这能回答你的问题吗? The system cannot find the path specified error while running pyspark 【参考方案1】:设置路径如下:
Java
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_73
PATH = C:\Program Files\Java\jdk1.8.0_73\bin
Hadoop
创建文件夹 Hadoop/bin 并将 winutils.exe 文件放入 bin 文件夹中。
HADOOP_HOME = C:\Hadoop
PATH = C:\Hadoop\bin
火花
下载任何火花版本(例如:spark-2.4.4-bin-hadoop2.7)
SPARK_HOME = C:\software\spark-2.3.1-bin-hadoop2.7
PATH = C:\software\spark-2.3.1-bin-hadoop2.7\bin
【讨论】:
【参考方案2】:安装 spark 最简单的方法是使用python findspark
pip install findspark
import findspark
finspark.init('\path\to\extracted\binaries\folder')
import pyspark
【讨论】:
【参考方案3】:我有同样的问题,做了多项研究,最后我发现我有 jdk 和 jdk1.8.0_261 和 JRE jre1.8.0_271
作为解决方案,我卸载了 jdk 和 jre,然后安装了 jdk1.8.0_261,它基本上都安装了相同的版本 jdk1.8.0_261 jre1.8.0_261
解决了这个问题。
【讨论】:
【参考方案4】:尝试定位pyspark路径,然后导出该路径,然后安装findSpark包,它会完成剩下的工作,例如假设我的pyspark路径是:“/usr/spark-2.4.4/python /pyspark/" 所以我要做的是:
!export SPARK_HOME="/usr/spark-2.4.4/python/pyspark/"
!pip install findspark
import findspark
findspark.init()
from pyspark.sql import SparkSession
【讨论】:
【参考方案5】:尝试添加此代码段。
import os
import sys
os.environ['HADOOP_HOME'] = "Your_Hadoop_Home_Path"
# os.environ['HADOOP_HOME'] = "~file_path~\Hadoop\hadoop-3.x.x"
#这里实际做的是改变HADOOP_HOME环境路径
【讨论】:
似乎是环境问题而不是代码问题。添加到os.environ
的路径不会解决问题
是的,这是在改变环境,也就是改变HADOOP_HOME环境以上是关于Pyspark 系统找不到指定的路径的主要内容,如果未能解决你的问题,请参考以下文章