GCP 数据流:使用具有未知区域的区域 SSD
Posted
技术标签:
【中文标题】GCP 数据流:使用具有未知区域的区域 SSD【英文标题】:GCP Dataflow: using Zonal SSD with unknown zone 【发布时间】:2022-01-13 07:48:14 【问题描述】:目前,我们为批处理和流数据流作业设置了region
,例如。 europe-west1
。
使用 HDD 时,这一切都很好。
但现在我想用 SSD 测试管道,根据worker-level-options,我可以做到,但我必须事先提供区域。
是否可以在不指定区域的情况下使用区域 SSD PD,即使用工作人员的区域(自动)?
注意:我知道您实际上可以设置工作人员的区域,但我想避免这种情况,让他们自动选择该区域内最好的。
【问题讨论】:
【参考方案1】:除了worker_disk_type 选项之外,我认为 Dataflow 没有 [自动] 选择 SSD 区域的选项。
此外,为了提高您的作业性能(请参阅此common error),您可以切换到Dataflow Shuffle(应默认为所有批处理作业打开)或streaming engine,而不是使用设备模式尽量减少本地磁盘使用量。
【讨论】:
非常感谢您的链接!我们目前已经在使用流媒体引擎,它运行得非常好——SSD 选项听起来像是为了进一步提高性能而进行的调整,相对而言额外支出很少,所以我们想试一试。但是 Dataflow Shuffle 的想法非常有前途。我们主要关注 Stream 已经有一段时间了,但我们绝对应该试一试 shuffle。再次感谢(将 Q 保持打开更长时间) 我想是时候接受它了。再次感谢(不知道如何添加中文句柄,抱歉:-))以上是关于GCP 数据流:使用具有未知区域的区域 SSD的主要内容,如果未能解决你的问题,请参考以下文章
同一区域中的 GCP 虚拟机无法 Ping 使用 GKE 内部 LB 入口创建的内部 HTTPS 负载均衡器 IP