为 DataFlow 使用参数化数据集

Posted

技术标签:

【中文标题】为 DataFlow 使用参数化数据集【英文标题】:Use parameterized dataset for DataFlow 【发布时间】:2022-01-15 18:34:12 【问题描述】:

我正在尝试将全局参数化数据集用作数据工厂内数据流中的源和接收器。但是我的数据流中的测试连接失败。它仅在我不使用参数时才有效。如果我将 'item().name' 更改为文件名,它会起作用。

My dataset

The parameters

The dataflow error

【问题讨论】:

【参考方案1】:

参数仅在其范围内有效,即您不能直接在数据集参数默认值中使用管道参数。您只能在数据集参数的默认字段中提供静态值。

检查同样的错误:

解决方法:

在您的场景中,由于您在数据流中有一个参数化数据集,因此在管道中使用dataflow 活动时,系统会提示您为这些属性提供值。在这里你可以提到全局参数。


【讨论】:

我的荣幸.. ?

以上是关于为 DataFlow 使用参数化数据集的主要内容,如果未能解决你的问题,请参考以下文章

Dataflow Bigquery-Bigquery 管道在较小的数据上执行,但不是在大型生产数据集上执行

超参数划分数据集偏差与方差正则化

超参数划分数据集偏差与方差正则化

Dataprep将具有不同列数的文件导入数据集

使用 GCP Cloud DataFlow 读取 BigTable 并转换为通用记录

如何使用批处理为大型数据集拟合 Keras ImageDataGenerator