GCP 数据流:使用具有未知区域的区域 SSD

Posted

技术标签:

【中文标题】GCP 数据流:使用具有未知区域的区域 SSD【英文标题】:GCP Dataflow: using Zonal SSD with unknown zone 【发布时间】:2022-01-13 07:48:14 【问题描述】:

目前,我们为批处理和流数据流作业设置了region,例如。 europe-west1。 使用 HDD 时,这一切都很好。

但现在我想用 SSD 测试管道,根据worker-level-options,我可以做到,但我必须事先提供区域。

是否可以在不指定区域的情况下使用区域 SSD PD,即使用工作人员的区域(自动)?

注意:我知道您实际上可以设置工作人员的区域,但我想避免这种情况,让他们自动选择该区域内最好的。

【问题讨论】:

【参考方案1】:

除了worker_disk_type 选项之外,我认为 Dataflow 没有 [自动] 选择 SSD 区域的选项。

此外,为了提高您的作业性能(请参阅此common error),您可以切换到Dataflow Shuffle(应默认为所有批处理作业打开)或streaming engine,而不是使用设备模式尽量减少本地磁盘使用量。

【讨论】:

非常感谢您的链接!我们目前已经在使用流媒体引擎,它运行得非常好——SSD 选项听起来像是为了进一步提高性能而进行的调整,相对而言额外支出很少,所以我们想试一试。但是 Dataflow Shuffle 的想法非常有前途。我们主要关注 Stream 已经有一段时间了,但我们绝对应该试一试 shuffle。再次感谢(将 Q 保持打开更长时间) 我想是时候接受它了。再次感谢(不知道如何添加中文句柄,抱歉:-))

以上是关于GCP 数据流:使用具有未知区域的区域 SSD的主要内容,如果未能解决你的问题,请参考以下文章

同一区域中的 GCP 虚拟机无法 Ping 使用 GKE 内部 LB 入口创建的内部 HTTPS 负载均衡器 IP

SSD固态硬盘的GC与Trim

Pub/Sub 订购和多区域

如何使用服务帐户在 gcp 中设置正确的 iam 策略

创建 azure vm 时,terraform 抛出“无效或未知的密钥:区域”

如何使用 Google 地图创建具有位置检测功能的销售区域地图?