Apache Spark 使用的 python 版本

Posted

技术标签:

【中文标题】Apache Spark 使用的 python 版本【英文标题】:The version of python used by Apache Spark 【发布时间】:2015-07-27 17:31:41 【问题描述】:

Apache Spark 库支持什么版本的 Python(2 或 3)? 如果两个版本都支持,那么在使用Apache-Spark时使用python 2或3有什么性能考虑吗?

【问题讨论】:

【参考方案1】:

至少从 Spark 1.2.1 开始,如果没有使用PYSPARK_PYTHONPYSPARK_DRIVER_PYTHON 进行其他设置(请参阅bin/pyspark),默认的 Python 版本是 2.7。

自 Spark 1.4.0 起支持 Python 3(请参阅 SPARK-4897 和 Spark 1.4.0 release notes)。

选择一个而不是另一个应该取决于您的要求。如果您不确定,阅读Should I use Python 2 or Python 3 for my development activity? 可能是明智的。除此之外,对于 SO 来说,这很可能是一个广泛而主观的话题。

【讨论】:

以上是关于Apache Spark 使用的 python 版本的主要内容,如果未能解决你的问题,请参考以下文章

.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 是预览版吗?

Apache Spark 使用的 python 版本

使用 6.4 版扩展支持(包括 Apache Spark 2.4.5、Scala 2.11)在 azure databricks 上启动集群时出现问题

Apache Spark 3.0 预览版正式发布,多项重大功能发布

使用 Python 的 Apache Spark TFIDF