PySpark 和 Spark 有啥区别?

Posted

技术标签:

【中文标题】PySpark 和 Spark 有啥区别?【英文标题】:What is the difference between PySpark and Spark?PySpark 和 Spark 有什么区别? 【发布时间】:2021-04-23 01:56:44 【问题描述】:

我在问一个与this SO question on pyspark and spark 非常相似的问题 这个答案解释了 pyspark 安装中确实有火花。当我通过 Anaconda 执行此操作时会发生什么?而且,还有其他方法可以在 PyCharm 中运行它吗?因为,我的 jupyter notebooks 运行良好。

我对从安装开始的 Spark 和 Pyspark 感到非常困惑。

我了解 PySpark 是一个使用 python 编写可扩展 Spark 脚本的包装器。我所做的只是通过 anaconda,我安装了它。

conda install pyspark。我可以在脚本中导入它。

但是,当我尝试通过 PyCharm 运行脚本时,出现了这些警告,并且代码保持原样,但并未停止。

Missing Python executable 'C:\Users\user\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Python 3.9', defaulting to 'C:\Users\user\AppData\Local\Programs\Python\Python39\Lib\site-packages\pyspark\bin\..' for SPARK_HOME environment variable. Please install Python or specify the correct Python executable in PYSPARK_DRIVER_PYTHON or PYSPARK_PYTHON environment variable to detect SPARK_HOME safely.

清楚的告诉我们需要设置这些环境变量

有很多关于安装 Spark 的资源,我浏览了很多并关注了this:

我只是不明白这一切之间的联系。这可能是一个非常琐碎的问题,但我只是感到很无助。

谢谢。

【问题讨论】:

【参考方案1】:

(过)简化解释:Spark 是data processing framework。 Spark 核心由Scala 和Java 实现,但它也提供了不同的包装器,包括Python (PySpark)、R (SparkR) 和SQL (Spark SQL)。

您可以单独安装 Spark(这将包括所有的包装器),或仅使用 pipconda 安装 Python 版本。

【讨论】:

以上是关于PySpark 和 Spark 有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章

在 spark 上使用集群和在本地使用并行操作有啥区别?

pyspark的RDD代码纪录

`pyspark.sql.SparkSession.sql` 和 `SQLContext.read.format()` 有啥区别?

pyspark 中 spark.sql() 和 cursor.execute 的区别?

PySpark:以下两种在数据框中使用 desc 函数有啥区别?

Pyspark-SQL 与 Pyspark 使用 Delta 格式的查询表有啥区别?