如何衡量 Google Cloud Dataproc 中的高可用性

Posted

技术标签:

【中文标题】如何衡量 Google Cloud Dataproc 中的高可用性【英文标题】:How to measure High Availability in Google cloud Dataproc 【发布时间】:2020-05-19 06:25:41 【问题描述】:

根据谷歌文档,衡量 Dataproc 的高可用性基于 HDFS 和 YARN 可用性而不是基于区域/区域。是否可以将一个主控器保留在一个区域中,而将另一个主控器保留在不同的区域中以使 HA 在上下文中定位到 Location ? 另外请详细说明,在 Global Endpoint 中配置 Dataproc 集群是否可以实现上下文到位置的 HA?

我已经浏览过 Google 文档,但这并不能消除上述疑虑。

【问题讨论】:

【参考方案1】:

不,Dataproc HA 不保证区域可用性,因为所有 Dataproc 集群节点都应位于同一个 GCP 地区。

要实现区域可用性,您需要在多个区域中创建 Dataproc 集群,并使用 Dataproc Workflow Templates 和基于标签的 cluster selectors 来跨区域集群分发作业提交。

【讨论】:

是否可以触发云函数根据日志实例化Dataproc WorkflowTemplate? 是的,应该可以,你需要使用 Cloud Function 的 Dataproc API 来实现:cloud.google.com/dataproc/docs/reference/rest/v1/…

以上是关于如何衡量 Google Cloud Dataproc 中的高可用性的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Google Python Client for Cloud Functions 获取 Google Cloud Functions 列表?

google-cloud-recommendations 如何识别 UserEvent 是不是被删除?

如何从 google.cloud 导入 bigquery 模块

如何访问 Python google.cloud.storage 上传方法中的错误原因?

如何将 google-api-client 用于 Google Cloud Logging

Google Cloud 线上课堂 | 解析勒索软件攻击链,看 Google Cloud 如何破局