提交火花期间 pyspark 出现 Windows Spark_Home 错误

Posted

技术标签:

【中文标题】提交火花期间 pyspark 出现 Windows Spark_Home 错误【英文标题】:Windows Spark_Home error with pyspark during spark-submit 【发布时间】:2021-06-21 23:55:14 【问题描述】:

在简单的 python 脚本上运行 spark-submit 以导入 sparksession 时出现以下错误。我将Spark_Home 用户变量设置为'C:\Spark\spark-3.1.2-bin-hadoop3.2';用户变量中的 ENV 路径设置为 C:\Spark\spark-3.1.2-bin-hadoop3.2\bin; HADOOP_HOME 路径设置为带有 WINUTILS 的文件夹。

在这里做了所有事情:https://phoenixnap.com/kb/install-spark-on-windows-10

完整代码如下。

尊敬的我尝试PATH issue: Could not find valid SPARK_HOME while searching这不起作用,我在Windows上。这是与工作相关的,我是 *** 和 Spark 的新手。谢谢!!

C:\Spark\spark-3.1.2-bin-hadoop3.2\bin>spark-submit C:\Spark\PYScripts\New.py
21/06/21 16:44:22 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Traceback (most recent call last):
  File "C:/Spark/PYScripts/New.py", line 2, in <module>
    from pyspark.sql import SparkSession
  File "C:\Spark\spark-3.1.2-bin-hadoop3.2\python\lib\pyspark.zip\pyspark\__init__.py", line 53, in <module>
  File "C:\Spark\spark-3.1.2-bin-hadoop3.2\python\lib\pyspark.zip\pyspark\rdd.py", line 34, in <module>
  File "C:\Spark\spark-3.1.2-bin-hadoop3.2\python\lib\pyspark.zip\pyspark\java_gateway.py", line 31, in <module>
  File "C:\Spark\spark-3.1.2-bin-hadoop3.2\python\lib\pyspark.zip\pyspark\find_spark_home.py", line 68
    print("Could not find valid SPARK_HOME while searching 0".format(paths), file=sys.stderr)
                                                                                   ^
SyntaxError: invalid syntax
log4j:WARN No appenders could be found for logger (org.apache.spark.util.ShutdownHookManager).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

【问题讨论】:

【参考方案1】:

尝试使用findspark

import findspark
findspark.find()

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master("local") \
    .appName("Spark") \
    .getOrCreate()

【讨论】:

以上是关于提交火花期间 pyspark 出现 Windows Spark_Home 错误的主要内容,如果未能解决你的问题,请参考以下文章

如何在 oozie 4.2.0 上运行火花动作(pyspark 脚本)?

SparkSubmitOperator 与 SSHOperator 用于在气流中提交 pyspark 应用程序

使用 pyspark 提交作业时,如何使用 --files 参数访问静态文件上传?

火花(pyspark)速度测试

存储火花数据框-pyspark

Pyspark:以表格格式显示火花数据框