Google Vertex AI AutoML - 无法为 CSV 数据集指定架构
Posted
技术标签:
【中文标题】Google Vertex AI AutoML - 无法为 CSV 数据集指定架构【英文标题】:Google Vertex AI AutoML - cannot specify schema for CSV Dataset 【发布时间】:2021-09-10 08:53:47 【问题描述】:我在 Vertex AI / Datasets 中基于一些 CSV 文件创建了表格数据集。但是,当我尝试在 AutoML 中使用这些数据集进行训练和预测时,无法指定字段的数据类型。在the docs 我找不到如何进行“转换”。理论上它支持以下类型:
文字 分类 数字 时间戳对于 BigQuery 表,获取数据类型非常明显,因为它由表的架构明确指定。但是,对于 CSV 文件,有时找出字段的类型并不明显,而且在我的情况下,有时 AutoML 会猜错。任何想法如何明确指定 CSV 文件的数据类型?
【问题讨论】:
【参考方案1】:用于 Vertex AI 的 Google Cloud Python SDK 不支持转换列数据类型。目前只能通过 Cloud Console 完成。
将数据导入 Vertex AI 数据集并创建训练管道后,它会自动检测和分析提供的 CSV 文件,并提供有关各种数据类型的信息,如下图所示。数据类型的转换发生在数据导入之后。
如果 Vertex AI 错误识别数据类型,我们可以使用下拉菜单将其更改为所需的数据类型,如下图所示。有关使用 Vertex AI 构建和训练模型的演示,请参阅此 video。
【讨论】:
您好,感谢您的快速回复。实际上,您正在谈论 AutoML / Vertex AI 的一个新功能 - AutoML Tables。我说的是旧方法:使用原始数据集的 API 将 CSV 文件导入 Vertex AI。我不想手动导入任何东西,我想在文档中看到一些关于如何进行转换的 python 代码。此 AutoML Tables 尚未在我的所有项目中可用(在我的一个项目中,我必须手动启用此 API)。而且 AutoML Tables 仍然不是 Vertex AI 的 UI 的一部分......以上是关于Google Vertex AI AutoML - 无法为 CSV 数据集指定架构的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Web GUI 停止 Google Cloud AutoML(现为 Vertex AI)批量预测作业?
如何在 Vertex AI AutoML 时间序列模型中选择目标列