来自 DataProc 集群的 Google Cloud Sdk

Posted

技术标签:

【中文标题】来自 DataProc 集群的 Google Cloud Sdk【英文标题】:Google Cloud Sdk from DataProc Cluster 【发布时间】:2016-07-14 02:23:40 【问题描述】:

从 google-dataproc 集群使用/安装 python google cloud api(例如 pub-sub)的正确方法是什么?例如,如果我在集群上使用 zeppelin/pyspark 并且我想使用 pub-sub api,我应该如何准备它?

我不清楚在默认集群配置期间安装了哪些内容以及未安装哪些内容,以及我是否应该/如何尝试为谷歌云 API 安装 python 库。

我还意识到可能需要设置范围/身份验证。 需要明确的是,我可以在本地使用 api,但我不确定从集群访问 api 的最干净的方法是什么,我不想执行任何不必要的步骤。

【问题讨论】:

【参考方案1】:

目前,您需要为各种 Google API 携带自己的客户端库,除非使用 Java 中的 Google Cloud Storage connector 或 BigQuery connector 或通过 PySpark 中自动委托给 Java 实现的 RDD 方法。

对于身份验证,您只需使用--scopes https://www.googleapis.com/auth/pubsub 和/或--scopes https://www.googleapis.com/auth/cloud-platform,Dataproc 集群的虚拟机上的服务帐户将能够通过默认安装的凭据流进行身份验证以使用 PubSub。

【讨论】:

以上是关于来自 DataProc 集群的 Google Cloud Sdk的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Google Dataproc 集群中安装 python 包

在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库

Google Cloud Dataproc 无法使用初始化脚本创建新集群

所有作业完成后自动关闭 Google Dataproc 集群

如何提交依赖于 google dataproc 集群的 pyspark 作业

通过 HTTP 创建但未在 SDK 或查看器中列出的 Google Dataproc 集群