Python脚本会使用pyspark在spark中工作吗

Posted

技术标签:

【中文标题】Python脚本会使用pyspark在spark中工作吗【英文标题】:will Python script work in spark using pyspark 【发布时间】:2016-07-29 06:01:44 【问题描述】:

我为机器学习用例开发了一个 python 脚本,现在我想在 spark 的 pyspark shell 中执行该脚本。 我可以马上做吗?

【问题讨论】:

【参考方案1】:

要使用 Spark 的内存分布式处理能力,您需要使用 pyspark API 来定义 Spark 上下文并创建 RDD(弹性分布式数据集)。标准 python 代码可以在 pyspark shell 中运行,但它与在单个节点上运行代码相同。 Spark 确实有自己的机器学习库,但总的来说,这些功能不如 python 中可用的丰富。希望这会有所帮助。

【讨论】:

我可以在 pyspark 中安装所有的 python 模块(如 pandas、sklearn... 等)吗?如果是,那该怎么做? Python 模块的安装独立于 PySpark。假设您在 Unix 环境下工作。检查您是否安装了“pip”实用程序。例如: which pip 会给你 pip 命令在你的文件系统中的位置。如果“pip”可用,您可以尝试: pip install pandas 取决于您的站点包的设置。您可能必须手动下载所有包并使其在您的 python 存储库中可用,以便 pip 安装它们。如需进一步阅读,这可能会有所帮助:docs.python.org/3/installing

以上是关于Python脚本会使用pyspark在spark中工作吗的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Pyspark 中运行 Python 脚本

从 Scala Spark 代码调用 Pyspark 脚本

Apache Spark:如何在Python 3中使用pyspark

没有 spark-submit 的 Exec pyspark 独立脚本

如何在远程 Spark 集群上运行本地 Python 脚本?

如何在 PySpark 中读取 Avro 文件