GCP 数据流：使用具有未知区域的区域 SSD

Posted 2023-03-29

技术标签:

【中文标题】GCP 数据流：使用具有未知区域的区域 SSD【英文标题】：GCP Dataflow: using Zonal SSD with unknown zone 【发布时间】：2022-01-13 07:48:14 【问题描述】：

目前，我们为批处理和流数据流作业设置了region，例如。 europe-west1。使用 HDD 时，这一切都很好。

但现在我想用 SSD 测试管道，根据worker-level-options，我可以做到，但我必须事先提供区域。

是否可以在不指定区域的情况下使用区域 SSD PD，即使用工作人员的区域（自动）？

注意：我知道您实际上可以设置工作人员的区域，但我想避免这种情况，让他们自动选择该区域内最好的。

【问题讨论】：

【参考方案1】：

除了worker_disk_type 选项之外，我认为 Dataflow 没有 [自动] 选择 SSD 区域的选项。

此外，为了提高您的作业性能（请参阅此common error），您可以切换到Dataflow Shuffle（应默认为所有批处理作业打开）或streaming engine，而不是使用设备模式尽量减少本地磁盘使用量。

【讨论】：

非常感谢您的链接！我们目前已经在使用流媒体引擎，它运行得非常好——SSD 选项听起来像是为了进一步提高性能而进行的调整，相对而言额外支出很少，所以我们想试一试。但是 Dataflow Shuffle 的想法非常有前途。我们主要关注 Stream 已经有一段时间了，但我们绝对应该试一试 shuffle。再次感谢（将 Q 保持打开更长时间）我想是时候接受它了。再次感谢（不知道如何添加中文句柄，抱歉:-)）

以上是关于GCP 数据流：使用具有未知区域的区域 SSD的主要内容，如果未能解决你的问题，请参考以下文章

同一区域中的 GCP 虚拟机无法 Ping 使用 GKE 内部 LB 入口创建的内部 HTTPS 负载均衡器 IP

SSD固态硬盘的GC与Trim

Pub/Sub 订购和多区域

如何使用服务帐户在 gcp 中设置正确的 iam 策略

创建 azure vm 时，terraform 抛出“无效或未知的密钥：区域”

如何使用 Google 地图创建具有位置检测功能的销售区域地图？