Google AutoML 训练错误/无法部署模型
Posted
技术标签:
【中文标题】Google AutoML 训练错误/无法部署模型【英文标题】:Google AutoML training error / unable to deploy model 【发布时间】:2019-06-03 22:40:47 【问题描述】:我有一个包含 727253 个标记图像的多标签数据集。最小的标签出现是 ~15,最大的出现在 200000 左右。模型训练在 ~18 小时前开始,现在失败并显示以下消息:
Unable to deploy model
cancel_lro() got an unexpected keyword argument 'min_nodes'
Pipeline d884756f14314048b7a036f5b07f0fd2 timeout.
自动生成的电子邮件包含以下内容:
Last error message
Please reference 116298312436989152 when reporting errors.
这是已知的吗?我也选择了免费计划(1小时)来训练。我需要增加这个才能正常工作吗?有没有办法在训练期间查看状态来预测没有结果的大等待时间? (我尝试了 API,但没有百分比或其他类似的东西,仅适用于成品模型。)
提前致谢!
【问题讨论】:
【参考方案1】:这似乎是一个内部错误。主要问题似乎是管道超时。作为超时的一部分,它会尝试进行某种清理,但这种清理似乎有一个错误。
我的建议是重试管道。
【讨论】:
以上是关于Google AutoML 训练错误/无法部署模型的主要内容,如果未能解决你的问题,请参考以下文章
利用 AutoML 的功能构建和部署 TensorFlow.js 模型