Google 对象检测 API - 使用 faster_rcnn_resnet101_coco 模型进行训练

Posted

技术标签:

【中文标题】Google 对象检测 API - 使用 faster_rcnn_resnet101_coco 模型进行训练【英文标题】:Google object detection API - using faster_rcnn_resnet101_coco model for training 【发布时间】:2018-06-11 23:53:38 【问题描述】:

我使用 mobilenet 模型来训练我的图像。它工作得很好。为了提高准确性,我尝试使用 faster_rcnn_resnet101_coco 模型来复制相同的步骤。我使用的所有步骤都是一样的。当我开始培训课程时,它开始运行了大约 800 步。此时的训练损失约为 0.5,这似乎好得令人难以置信。它停在这一步,并抛出以下错误:

replica worker 1 以非零状态 1 退出。终止 原因:错误。 Traceback(最近一次通话最后一次):文件 “/usr/lib/python2.7/runpy.py”,第 174 行,在 _run_module_as_main "ma​​in", fname, loader, pkg_name) 文件 “/usr/lib/python2.7/runpy.py”,第 72 行,在 _run_code 执行代码中 run_globals 文件 "/root/.local/lib/python2.7/site-packages/object_detection/train.py", 第 163 行,在 tf.app.run() 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", 第 48 行,运行中 _sys.exit(main(_sys.argv[:1] + flags_passthrough)) 文件 "/root/.local/lib/python2.7/site-packages/object_detection/train.py", 第 159 行,在主 worker_job_name、is_chief、FLAGS.train_dir) 文件中 "/root/.local/lib/python2.7/site-packages/object_detection/trainer.py", 第 332 行,在 train saver=saver) 文件中 “/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”, 第 763 行,在火车 sess、train_op、global_step、train_step_kwargs 中) 文件 “/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”, 第 487 行,在 train_step run_metadata=run_metadata) 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 889 行,在运行 run_metadata_ptr) 文件 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1120 行,在 _run feed_dict_tensor、options、run_metadata) 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1317 行,在 _do_run 选项中,run_metadata) 文件 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1336 行,在 _do_call raise type(e)(node_def, op, message) UnavailableError: Endpoint read failed 了解更多关于为什么你的 作业退出请检查日志: https://console.cloud.google.com/logs/viewer?project=341450659208&resource=ml_job%2Fjob_id%2Fobject_detection_188003&advancedFilter=resource.type%3D%22ml_job%22%0Aresource.labels.job_id%3D%22object_detection_188003%22

知道问题可能是什么吗?非常感谢任何帮助。

【问题讨论】:

【参考方案1】:

感谢您的反馈。我们仍在调查此问题,请暂时使用 1.2 运行时版本。

【讨论】:

使用 1.2 运行时版本后正在训练中。为什么会这样?超过 3k 步。如果失败我会更新。 训练成功。但是由于某种原因,评估图表在 8k 步后停止更新。 也遇到了这个问题。 我可以用 TF 1.4 导出我的训练模型并期望它工作吗?我的 TF 服务基础架构基于 TF 1.4。

以上是关于Google 对象检测 API - 使用 faster_rcnn_resnet101_coco 模型进行训练的主要内容,如果未能解决你的问题,请参考以下文章

使用 Fast/Faster-RCNN 在 C++ 上制作对象检测器的最简单方法是啥?

fast-rcnn 对象检测中的误报

使用 CSV 格式的框存储 Tensorflow 对象检测 API 图像输出

深度学习和目标检测系列教程 6-300:目标检测Fast-RCNN架构

仅使用 Google 的移动视觉 api 检测数字?

fail-fast以及Iterator对象