Vertex AI 模型批量预测因内部错误而失败

Posted

技术标签:

【中文标题】Vertex AI 模型批量预测因内部错误而失败【英文标题】:Vertex AI model batch prediction failed with internal error 【发布时间】:2021-12-23 19:10:56 【问题描述】:

我已经在 Vertex AI 上训练了 AutoMl 分类模型,不幸的是,该模型不适用于批量预测,每当我尝试使用 Vertex AI 上的批量预测对训练数据集(与成功的模型训练相同)进行评分时,我都会得到一个以下错误:

“由于一个或多个错误,此培训作业已于 2021 年 11 月 11 日上午 9:42 取消”。

有一个选项可以从此错误中获取详细信息,并且那些说以下内容:

“批量预测作业 customer_value_label_cv_automl_gui 遇到以下错误:INTERNAL”

有谁知道出现这种错误的原因可能是什么?我很惊讶该模型无法对它训练过的数据集进行评分。我的数据集由 570 列和大约 300k 条记录组成。

【问题讨论】:

这种问题调试起来很复杂。根据official documentation,你甚至必须去谷歌支持。在这样做之前,我认为你应该修改你的训练/测试数据。检查列值的完整性是否与其定义匹配,避免使用特殊字符,避免使用过长的值并符合 automl 建议的限制。为此,请检查此link。 我们终于能够弄清楚这一点。当我们使用 official documentation 中描述的 model.batch_predict 方法时,我们不需要设置 machine_type 参数。最后我们能够弄清楚是它导致了这个问题,机器可能太弱了。一旦我们删除了这个声明,这个方法就开始使用自动资源并解决了这个问题。我希望 Vertex AI 错误能够提供更多信息,因为我们需要进行大量试验和错误才能弄清楚。 【参考方案1】:

我们终于能够弄清楚这一点。当我们使用official documentation 中描述的 model.batch_predict 方法时,我们不需要设置 machine_type 参数。最后,我们能够弄清楚是它导致了这个问题,机器可能太弱了。一旦我们删除了这个声明,这个方法就开始使用自动资源并解决了这个问题。我希望 Vertex AI 错误能够提供更多信息,因为我们需要进行大量试验和错误才能弄清楚。

【讨论】:

以上是关于Vertex AI 模型批量预测因内部错误而失败的主要内容,如果未能解决你的问题,请参考以下文章

Vertex AI 自定义容器批量预测

如何使用 Web GUI 停止 Google Cloud AutoML(现为 Vertex AI)批量预测作业?

GCP Vertex AI 中的批量预测

用于服务模型预测的 Google Kubernetes Engine vs Vertex AI(AI Platform Unified)

在 Vertex AI(谷歌云平台)中使用模型进行预测

Vertex AI 自定义预测与 Google Kubernetes Engine