如何在 Vertex AI 表格预测中分配两个或多个时间序列标识符列

Posted

技术标签:

【中文标题】如何在 Vertex AI 表格预测中分配两个或多个时间序列标识符列【英文标题】:How to assign two or more time series identifier columns in Vertex AI Tabular Forecasting 【发布时间】:2021-11-15 00:38:00 【问题描述】:

我想知道模型中是否可以有多个时间序列标识符列?假设我想在产品和商店级别创建预测(文档建议应该可以)。

如果我选择产品作为系列标识符,我留给商店的唯一选项是协变量或属性,在这种情况下都不适用。

将产品和商店连接起来并使用该连接 ID 的单个产品和商店代码值作为属性是一种解决方案吗?感觉不对,但我看不到任何其他选项 - 我错过了什么吗?

注意:我了解 Vertex AI 的此功能目前处于预览阶段,因此选项可能会受到限制。

【问题讨论】:

【参考方案1】:

Vertex AI预测模型中,没有其他方法可以分配2个或更多时间序列标识符。如您所知,“预测模型”在“Preview”Product launch stage 中,因此选项有限。有关训练预测模型的数据准备最佳实践的更多信息,请参阅此doc。

作为一种解决方法,可以连接两列并在该连接列上分配一个时间序列标识符,正如您在问题中提到的那样。这样,连接列将更多的上下文信息带入模型的训练中。

【讨论】:

【参考方案2】:

只是为了跟进 Vishal 的(正确)答案,以防将来有人查找此问题。

是的,连接是目前唯一的选择,因为只能有一个时间序列标识符(我希望将来会有所改变)。话虽如此,我已经尝试将数据中的单个标识符添加为分类属性,它实际上工作得很好。这样我就可以在产品/商店级别生成预测,但是我可以汇总单个产品的所有预测,并且结果与基于汇总数据训练的模型相差不大(显然这将取决于需求分类和选择的优化方法)其他因素)。

另外,一个有趣的观察。当您包含产品描述之类的内容时,您可以将它们分类为分类或文本。我无法在文档中找到该模型是否仅使用 unigrams(这是控制台中的列统计信息所建议的)或多个 n-grams,但这绝对是您想要尝试的东西数据。当使用分类分类时,我的数据集实际上显示出更好的准确性,这有点违反直觉,因为它感觉像是冗余信息,尽管很难说,因为文档不是很详细。它可能特定于我的数据集,所以正如我所说,请确保您使用自己的数据集进行试验。

【讨论】:

以上是关于如何在 Vertex AI 表格预测中分配两个或多个时间序列标识符列的主要内容,如果未能解决你的问题,请参考以下文章

Google Vertex AI AutoML - 无法为 CSV 数据集指定架构

在 Vertex AI(谷歌云平台)中使用模型进行预测

在结构中分配内存时出现不可预测的行为

安排批量预测 Vertex AI

Vertex AI 自定义容器批量预测

GCP Vertex AI 中的批量预测