如何扩展 kubeflow 管道(使用顶点 ai),或者它只是自动完成

Posted

技术标签:

【中文标题】如何扩展 kubeflow 管道(使用顶点 ai),或者它只是自动完成【英文标题】:how to scale out kubeflow pipelines (using vertex ai), or it just done automatically 【发布时间】:2021-09-21 09:22:10 【问题描述】:

我正在运行一个包含不同组件的 kubeflow 管道,用于数据预处理、训练等阶段。

我知道我可以为每个阶段(组件)使用特定的图像。 (例如不使用 gpu 或使用 gpu 进行训练的图像。

我的问题是如何设置管道以针对不同阶段(组件)进行扩展?

或者它只是自动完成

谢谢。

【问题讨论】:

【参考方案1】:

由于containerization,在每个组件(步骤)上分配的资源量受到其运行资源的限制。 对于管道中使用的 GCP 产品(例如 Dataflow、AutoML),资源会根据 product scalability 自动扩展。 可以创建自定义组件,为此 Vertex AI 允许您为each step 选择资源量(例如机器类型、CPU 限制、GPU 限制)。对于自定义培训,您还可以选择 more options available 以创建更高效​​的流程。

【讨论】:

以上是关于如何扩展 kubeflow 管道(使用顶点 ai),或者它只是自动完成的主要内容,如果未能解决你的问题,请参考以下文章

如何使用专门用于 GCP 的 TFX SDK 实现 Kubeflow“运行参数”?

在 Vertex AI 上使用 Tesla A100 GPU 和 Kubeflow Pipelines

是否可以将 kubeflow 组件与 tensorflow 扩展组件混合使用?

顶点管道:CustomPythonPackageTrainingJobRunOp 不提供 WorkerPoolSpecs

如何将 OutputPathPlaceholder 与带有 Kubeflow 管道的字符串连接起来?

使用带有 Python 和 PyCharm 的 Kubeflow Pipelines SDK 连接到 AI Platform Pipelines