来自 Spark 安装的 Pyspark VS Pyspark python 包

Posted

技术标签:

【中文标题】来自 Spark 安装的 Pyspark VS Pyspark python 包【英文标题】:Pyspark from Spark installation VS Pyspark python package 【发布时间】:2019-10-21 03:15:12 【问题描述】:

刚开始学spark,对这个概念有点迷糊,所以从spark安装中,我们得到spark安装子文件夹下的pyspark,我理解是shell,从python包中我们也可以通过pip install pyspark安装python包,所以我们可以运行python代码而不是提交到集群,那么这两者有什么区别呢?同样在 anaconda 中,我们可以使用 findspark 并从那里使用 pyspark,这是否意味着它没有使用 python 包中的 pyspark?

加上在现实世界的 spark 应用程序开发中,在什么场景中使用什么?提前致谢。

【问题讨论】:

你可以编辑和编写你用来安装你指定的多种方式的命令吗? 【参考方案1】:

如果你pip install,那只会在本地安装必要的 Python 库,不会包含 spark-submit 脚本或其他通过下载所有 Spark 获得的 Spark 配置文件。

因此,在笔记本之外的 Spark 的“真实世界”中,您需要将 Python 代码打包为 Zip,然后使用该提交脚本将其提交到集群,或者在代码本身,不够灵活

【讨论】:

【参考方案2】:

version 2.2 之前的较低版本的spark 中,您需要安装spark,之后需要执行一些步骤。但是在更高版本pip install pyspark就足够了。

【讨论】:

以上是关于来自 Spark 安装的 Pyspark VS Pyspark python 包的主要内容,如果未能解决你的问题,请参考以下文章

了解 PySpark 中的 RDD(来自并行化)

pyspark 需要本地安装 Spark 吗?

Win7 单机Spark和PySpark安装

COMP9313 Lab1 SPARK pyspark 安装

SPARK 安装后无法在 MAC 中运行 pyspark

Spark 似乎已安装但无法导入 pyspark 模块