如何在 Google Dataproc 集群中安装 python 包
Posted
技术标签:
【中文标题】如何在 Google Dataproc 集群中安装 python 包【英文标题】:How to install python packages in a Google Dataproc cluster 【发布时间】:2018-10-21 03:18:43 【问题描述】:Google Dataproc 集群创建并运行后,是否可以在集群中安装 python 包?
我尝试在主命令行中使用“pip install xxxxxxx
”,但它似乎不起作用。
Google 的 Dataproc 文档没有提到这种情况。
【问题讨论】:
【参考方案1】:这在集群创建后一般是不可能的。我建议使用初始化操作来执行此操作。
如您所见,pip
默认也不可用。因此,您需要运行easy_install pip
,然后运行pip install
命令。
最后,如果您打算在任何自动化中使用此集群,并且/或者您想要密封性,我建议您创建一个 wheel
并将其存储在 GCS 中并在 init 操作中下载。然后你会安装你的***。 Wheels 的好处是比直接从 pip 安装许多包更快。
2019 年更新
请参阅本教程,了解如何在 Dataproc 上配置 Python 环境: https://cloud.google.com/dataproc/docs/tutorials/python-configuration
【讨论】:
非常感谢,在使用 Jupyter Notebook 时,我能够在笔记本中使用 !pip install package 安装软件包。 关于设置生产 pyspark 作业的好文章,如果这是您的追求,包括使用 Makefile 捆绑模块和在运行作业时部署:developerzen.com/…以上是关于如何在 Google Dataproc 集群中安装 python 包的主要内容,如果未能解决你的问题,请参考以下文章
如何提交依赖于 google dataproc 集群的 pyspark 作业
所有作业完成后自动关闭 Google Dataproc 集群
在启动 Google DataProc 集群以与 Jupyter 笔记本一起使用时,如何包含其他 jar?