Vertex AI 无法将数据导入数据集。它说最多 1M 行,而我的数据集只有 600k

Posted

技术标签:

【中文标题】Vertex AI 无法将数据导入数据集。它说最多 1M 行,而我的数据集只有 600k【英文标题】:Vertex AI was unable to import data into dataset. It says maximum 1M lines while my dataset only have 600k 【发布时间】:2022-01-03 15:01:12 【问题描述】:

我正在将文本数据集导入 Google Vertex AI 并收到以下错误:

Hello Vertex AI Customer,

Due to an error, Vertex AI was unable to import data into 
dataset [dataset_name].
Additional Details:
Operation State: Failed with errors
Resource Name: [resoure_link]
Error Messages: There are too many rows in the jsonl/csv file. Currently we 
only support 1000000 lines. Please cut your files to smaller size and run 
multiple import data pipelines to import.

我检查了我从 pandas 生成的数据集和实际的 CSV 文件,它只有 60 万行。

有人遇到过类似的错误吗?

【问题讨论】:

是否可以共享您尝试导入的数据集? 恐怕是公司的专有数据集。在深入研究之后,我认为 VertexAI 在 1M 行限制之上还有 10MB 数据集限制cloud.google.com/natural-language/automl/quotas 嗨,这里有 GCP 支持。我们想查看您的输入 CSV 文件的样本数据以进一步调查。所以,can you raise a private thread in the issue tracker (referencing this question, as stated in the template) with the project ID, job ID and a sample data of your input CSV file (Don't want the entire file or any PII)? 创建线程后,请在此处分享问题 ID,以便我们跟进。请注意,只有您和 GCP 支持人员才能访问该组件中的问题。 嗨@VishalK,感谢您的评论。我已经解决了这个问题,原来是我的 CSV 格式有问题。我会回答这个问题。 【参考方案1】:

原来是我的 CSV 格式有错误。

我忘记在我的文本数据集中修剪换行符和多余的空格。这解决了 1M 行数。但是在这样做之后,我会收到错误消息,告诉我我只有 2 个标签。

Error Messages: There are too many AnnotationSpecs in the dataset. Up to 
5000 AnnotationSpecs are allowed in one Dataset.

这是因为我在 Pandas 数据框中使用 to_csv() 方法创建了文本数据集。以这种方式创建 CSV 文件,当您的文本仅包含“,”(逗号字符)时,它将自动加上引号。因此 CSV 文件将如下所示:

"this is a sentence, with a comma", 0
this is a sentence without a comma, 1

同时,Vertex AutoML Text 希望 CSV 看起来像这样:

"this is a sentence, with a comma", 0
"this is a sentence without a comma", 1

即你必须在每一行加上引号。

您可以通过编写自己的 CSV 格式化程序来实现,或者如果您坚持使用 Pandas to_csv(),您可以将 csv.QUOTE_ALL 传递给 quoting 参数。它看起来像这样:

import csv
df.to_csv("file.csv", index=False, quoting=csv.QUOTE_ALL, header=False)

【讨论】:

以上是关于Vertex AI 无法将数据导入数据集。它说最多 1M 行,而我的数据集只有 600k的主要内容,如果未能解决你的问题,请参考以下文章

GCP Vertex AI 中的批量预测

Vertex AI 模型批量预测因内部错误而失败

如何在 Vertex AI AutoML 时间序列模型中选择目标列

AutoML Vertex AI - 如何为标签和默认值设置连续值?

Vertex AI Managed Notebook,获取子网/IP

Vertex AI 自定义预测与 Google Kubernetes Engine