Spark集群 Python Package管理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark集群 Python Package管理相关的知识,希望对你有一定的参考价值。

具体问题:

  1. 不同的数据分析人员/开发团队需要不同版本的Python版本执行PySpark。
  2. 同一Python版本下,需要安装多个Python库,甚至需要不同版本的库。

针对问题2的一个解决办法是将Python依赖库打包成*.egg文件,在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code,编译时对平台依赖,并且对于一些复杂依赖的库(如Pandas)

1.github 下载pandas https://codeload.github.com/pandas-dev/pandas/zip/master
2.生成编译python setup.py bdist_egg就会创建一个egg出来了
3.如果需要gcc 请自行安装gcc
    yum -y install gcc gcc-c++ kernel-devel





参考:
http://blog.csdn.net/gongbi917/article/details/52369025
http://blog.csdn.net/willdeamon/article/details/53159548










以上是关于Spark集群 Python Package管理的主要内容,如果未能解决你的问题,请参考以下文章

SparkSession 在本地独立集群上花费的时间太长

Spark的集群管理器

Spark集群任务提交

在 emr 集群上安装 com.databricks.spark.xml

Spark 独立集群如何在工作节点上管理多个执行程序?

Spark集群模式&Spark程序提交