如何在 Google Dataproc 集群中安装 python 包

Posted

技术标签:

【中文标题】如何在 Google Dataproc 集群中安装 python 包【英文标题】:How to install python packages in a Google Dataproc cluster 【发布时间】:2018-10-21 03:18:43 【问题描述】:

Google Dataproc 集群创建并运行后,是否可以在集群中安装 python 包?

我尝试在主命令行中使用“pip install xxxxxxx”,但它似乎不起作用。

Google 的 Dataproc 文档没有提到这种情况。

【问题讨论】:

【参考方案1】:

这在集群创建后一般是不可能的。我建议使用初始化操作来执行此操作。

如您所见,pip 默认也不可用。因此,您需要运行easy_install pip,然后运行pip install 命令。

最后,如果您打算在任何自动化中使用此集群,并且/或者您想要密封性,我建议您创建一个 wheel 并将其存储在 GCS 中并在 init 操作中下载。然后你会安装你的***。 Wheels 的好处是比直接从 pip 安装许多包更快。

2019 年更新

请参阅本教程,了解如何在 Dataproc 上配置 Python 环境: https://cloud.google.com/dataproc/docs/tutorials/python-configuration

【讨论】:

非常感谢,在使用 Jupyter Notebook 时,我能够在笔记本中使用 !pip install package 安装软件包。 关于设置生产 pyspark 作业的好文章,如果这是您的追求,包括使用 Makefile 捆绑模块和在运行作业时部署:developerzen.com/…

以上是关于如何在 Google Dataproc 集群中安装 python 包的主要内容,如果未能解决你的问题,请参考以下文章

如何提交依赖于 google dataproc 集群的 pyspark 作业

所有作业完成后自动关闭 Google Dataproc 集群

在启动 Google DataProc 集群以与 Jupyter 笔记本一起使用时,如何包含其他 jar?

暂停 Dataproc 集群 - Google 计算引擎

在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库

Google Cloud Dataproc 无法使用初始化脚本创建新集群