在 Windows 上安装 pyspark

Posted

技术标签:

【中文标题】在 Windows 上安装 pyspark【英文标题】:installing pyspark on windows 【发布时间】:2018-04-04 00:57:28 【问题描述】:

我有几个问题想在安装前澄清一下。请多多包涵,因为我对数据科学和安装包还很陌生。

1) 我可以在我的 Windows 上执行 pip install pyspark。当我尝试在下面运行示例脚本时,它告诉我我的 spark_home 未设置。我需要设置我的 spark_home 吗?我该怎么做?我在网上引用的博客从 spark 网站手动提取 spark 文件,然后他们必须放置 spark_home 和 pythonpath。但是,我认为这是用 pip install pyspark 消除的。

import findspark
findspark.init()

import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df = spark.sql('''select 'spark' as hello ''')
df.show()

2) 对于 intellij,在 pyspark 中安装并在 1 中根据需要进行设置后,是否还需要进行额外的配置?

非常感谢。如果我问了一个愚蠢的问题,我再次道歉并请原谅。

【问题讨论】:

【参考方案1】:

在这里查看路线

https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c

您还需要安装 Apache Spark(整个系统)!

我做到了,这需要很长时间 - 大多数情况下,当我学习/帮助朋友时,我会使用 Zepl 或 databricks 的笔记本

如果您确实选择安装整个东西并且遇到麻烦,请不要害羞地发布另一个问题:)

【讨论】:

嗨史蒂文一如既往地再次感谢。只是为了检查所以我们必须做 pip install pyspark,然后下载仍然 apache spark,在 windows 中设置路径。这是我的理解吗?之后intellij怎么样?我们需要导入任何其他文件吗? 是的,如果你编译任何 JVM 应用程序,你需要包含 spark 如果你只是在做 pyspark 你会没事的 嗨,史蒂夫,再次感谢您。我已经完成了以下步骤 - pip install pyspark - setx SPARK_HOME C:\Spark\spark-2.3.0-bin-hadoop2.7\python setx HADOOP_HOME C:\Spark\spark-2.3.0-bin-hadoop2.7 - 我还将我的 java home 设置为 C:\Program Files\Java\jdk1.8.0_161 - 然后我运行上述语句,但再次出现错误 C:\Users\adrlee\Desktop>python test.py 系统找不到指定的路径。例外:Java 网关进程在向驱动程序发送其端口号之前退出【参考方案2】:

我尝试了很多方法,但我从下面的链接成功安装

来源:

    Eden Canlilar PySpark in Jupyter Notebook on Windows

【讨论】:

以上是关于在 Windows 上安装 pyspark的主要内容,如果未能解决你的问题,请参考以下文章

怎么在windows上安装Atom

redis怎么在windows上安装

如何在Windows上安装FFmpeg程序

如何在Windows上安装FFmpeg程序

在Windows上安装MongoDB

Framework 2.0怎么安装在windows CE上