Google AutoML 训练错误/无法部署模型

Posted

技术标签:

【中文标题】Google AutoML 训练错误/无法部署模型【英文标题】:Google AutoML training error / unable to deploy model 【发布时间】:2019-06-03 22:40:47 【问题描述】:

我有一个包含 727253 个标记图像的多标签数据集。最小的标签出现是 ~15,最大的出现在 200000 左右。模型训练在 ~18 小时前开始,现在失败并显示以下消息:

Unable to deploy model

cancel_lro() got an unexpected keyword argument 'min_nodes'

Pipeline d884756f14314048b7a036f5b07f0fd2 timeout.

自动生成的电子邮件包含以下内容:

Last error message

Please reference 116298312436989152 when reporting errors.

这是已知的吗?我也选择了免费计划(1小时)来训练。我需要增加这个才能正常工作吗?有没有办法在训练期间查看状态来预测没有结果的大等待时间? (我尝试了 API,但没有百分比或其他类似的东西,仅适用于成品模型。)

提前致谢!

【问题讨论】:

【参考方案1】:

这似乎是一个内部错误。主要问题似乎是管道超时。作为超时的一部分,它会尝试进行某种清理,但这种清理似乎有一个错误。

我的建议是重试管道。

【讨论】:

以上是关于Google AutoML 训练错误/无法部署模型的主要内容,如果未能解决你的问题,请参考以下文章

多次训练同一个 Google AutoML 模型

利用 AutoML 的功能构建和部署 TensorFlow.js 模型

使用 AutoML 训练模型时出现“内部”错误

在 Cloud AutoML Vision 中将图像导入 Google 存储时出错

Google AutoML 对象检测数据拆分错误

Google Vertex AI AutoML - 无法为 CSV 数据集指定架构