Google 对象检测 API - 使用 faster_rcnn_resnet101_coco 模型进行训练

Posted 2023-03-12

技术标签:

【中文标题】Google 对象检测 API - 使用 faster_rcnn_resnet101_coco 模型进行训练【英文标题】：Google object detection API - using faster_rcnn_resnet101_coco model for training 【发布时间】：2018-06-11 23:53:38 【问题描述】：

我使用 mobilenet 模型来训练我的图像。它工作得很好。为了提高准确性，我尝试使用 faster_rcnn_resnet101_coco 模型来复制相同的步骤。我使用的所有步骤都是一样的。当我开始培训课程时，它开始运行了大约 800 步。此时的训练损失约为 0.5，这似乎好得令人难以置信。它停在这一步，并抛出以下错误：

replica worker 1 以非零状态 1 退出。终止原因：错误。 Traceback（最近一次通话最后一次）：文件 “/usr/lib/python2.7/runpy.py”，第 174 行，在 _run_module_as_main "main", fname, loader, pkg_name) 文件 “/usr/lib/python2.7/runpy.py”，第 72 行，在 _run_code 执行代码中 run_globals 文件 "/root/.local/lib/python2.7/site-packages/object_detection/train.py", 第 163 行，在 tf.app.run() 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", 第 48 行，运行中 _sys.exit(main(_sys.argv[:1] + flags_passthrough)) 文件 "/root/.local/lib/python2.7/site-packages/object_detection/train.py", 第 159 行，在主 worker_job_name、is_chief、FLAGS.train_dir) 文件中 "/root/.local/lib/python2.7/site-packages/object_detection/trainer.py", 第 332 行，在 train saver=saver) 文件中 “/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”，第 763 行，在火车 sess、train_op、global_step、train_step_kwargs 中）文件 “/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”，第 487 行，在 train_step run_metadata=run_metadata) 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 889 行，在运行 run_metadata_ptr) 文件 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1120 行，在 _run feed_dict_tensor、options、run_metadata) 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1317 行，在 _do_run 选项中，run_metadata) 文件 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1336 行，在 _do_call raise type(e)(node_def, op, message) UnavailableError: Endpoint read failed 了解更多关于为什么你的作业退出请检查日志： https://console.cloud.google.com/logs/viewer?project=341450659208&resource=ml_job%2Fjob_id%2Fobject_detection_188003&advancedFilter=resource.type%3D%22ml_job%22%0Aresource.labels.job_id%3D%22object_detection_188003%22

知道问题可能是什么吗？非常感谢任何帮助。

【问题讨论】：

【参考方案1】：

感谢您的反馈。我们仍在调查此问题，请暂时使用 1.2 运行时版本。

【讨论】：

使用 1.2 运行时版本后正在训练中。为什么会这样？超过 3k 步。如果失败我会更新。训练成功。但是由于某种原因，评估图表在 8k 步后停止更新。也遇到了这个问题。我可以用 TF 1.4 导出我的训练模型并期望它工作吗？我的 TF 服务基础架构基于 TF 1.4。

以上是关于Google 对象检测 API - 使用 faster_rcnn_resnet101_coco 模型进行训练的主要内容，如果未能解决你的问题，请参考以下文章

使用 Fast/Faster-RCNN 在 C++ 上制作对象检测器的最简单方法是啥？

fast-rcnn 对象检测中的误报

使用 CSV 格式的框存储 Tensorflow 对象检测 API 图像输出

深度学习和目标检测系列教程 6-300：目标检测Fast-RCNN架构

仅使用 Google 的移动视觉 api 检测数字？

fail-fast以及Iterator对象