PySpark 和 Spark 有啥区别?
Posted
技术标签:
【中文标题】PySpark 和 Spark 有啥区别?【英文标题】:What is the difference between PySpark and Spark?PySpark 和 Spark 有什么区别? 【发布时间】:2021-04-23 01:56:44 【问题描述】:我在问一个与this SO question on pyspark and spark 非常相似的问题 这个答案解释了 pyspark 安装中确实有火花。当我通过 Anaconda 执行此操作时会发生什么?而且,还有其他方法可以在 PyCharm 中运行它吗?因为,我的 jupyter notebooks 运行良好。
我对从安装开始的 Spark 和 Pyspark 感到非常困惑。
我了解 PySpark 是一个使用 python 编写可扩展 Spark 脚本的包装器。我所做的只是通过 anaconda,我安装了它。
conda install pyspark
。我可以在脚本中导入它。
但是,当我尝试通过 PyCharm 运行脚本时,出现了这些警告,并且代码保持原样,但并未停止。
Missing Python executable 'C:\Users\user\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Python 3.9', defaulting to 'C:\Users\user\AppData\Local\Programs\Python\Python39\Lib\site-packages\pyspark\bin\..' for SPARK_HOME environment variable. Please install Python or specify the correct Python executable in PYSPARK_DRIVER_PYTHON or PYSPARK_PYTHON environment variable to detect SPARK_HOME safely.
清楚的告诉我们需要设置这些环境变量
有很多关于安装 Spark 的资源,我浏览了很多并关注了this:
我只是不明白这一切之间的联系。这可能是一个非常琐碎的问题,但我只是感到很无助。
谢谢。
【问题讨论】:
【参考方案1】:(过)简化解释:Spark 是data processing framework。 Spark 核心由Scala 和Java 实现,但它也提供了不同的包装器,包括Python (PySpark)、R (SparkR) 和SQL (Spark SQL)。
您可以单独安装 Spark(这将包括所有的包装器),或仅使用 pip
或 conda
安装 Python 版本。
【讨论】:
以上是关于PySpark 和 Spark 有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章
`pyspark.sql.SparkSession.sql` 和 `SQLContext.read.format()` 有啥区别?
pyspark 中 spark.sql() 和 cursor.execute 的区别?