来自 Spark 安装的 Pyspark VS Pyspark python 包
Posted
技术标签:
【中文标题】来自 Spark 安装的 Pyspark VS Pyspark python 包【英文标题】:Pyspark from Spark installation VS Pyspark python package 【发布时间】:2019-10-21 03:15:12 【问题描述】:刚开始学spark,对这个概念有点迷糊,所以从spark安装中,我们得到spark安装子文件夹下的pyspark,我理解是shell,从python包中我们也可以通过pip install pyspark安装python包,所以我们可以运行python代码而不是提交到集群,那么这两者有什么区别呢?同样在 anaconda 中,我们可以使用 findspark 并从那里使用 pyspark,这是否意味着它没有使用 python 包中的 pyspark?
加上在现实世界的 spark 应用程序开发中,在什么场景中使用什么?提前致谢。
【问题讨论】:
你可以编辑和编写你用来安装你指定的多种方式的命令吗? 【参考方案1】:如果你pip install
,那只会在本地安装必要的 Python 库,不会包含 spark-submit
脚本或其他通过下载所有 Spark 获得的 Spark 配置文件。
因此,在笔记本之外的 Spark 的“真实世界”中,您需要将 Python 代码打包为 Zip,然后使用该提交脚本将其提交到集群,或者在代码本身,不够灵活
【讨论】:
【参考方案2】:在version 2.2
之前的较低版本的spark 中,您需要安装spark,之后需要执行一些步骤。但是在更高版本pip install pyspark
就足够了。
【讨论】:
以上是关于来自 Spark 安装的 Pyspark VS Pyspark python 包的主要内容,如果未能解决你的问题,请参考以下文章