玩转谷歌物体识别API，用TensorFlow和OpenCV打造实时识别应用

Posted 2021-04-25 新智元

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了玩转谷歌物体识别API，用TensorFlow和OpenCV打造实时识别应用相关的知识，希望对你有一定的参考价值。

新智元编译

来源：medium.com

编译：熊笑

【新智元导读】谷歌 TensorFlow 的 Object Detection API 刚刚开源， Pivotal Labs 的 Dat Tran 就做出了对象识别的应用。

TensorFlow’s (TF) 的 Object Detection API 刚刚开源，就有人利用它做出了对象识别的应用。评论的口径很一致：这么快就部署出来了，太牛了！让我们看看他是如何操作的。有请 Pivotal Labs 的 Dat Tran：

本文将告诉大家如何使用 TensorFlow 新的 Object Detection API 和OpenCV（Python3.5）来开发你自己的实时对象识别的app，着重介绍了其中的难点。

玩转谷歌物体识别API，用TensorFlow和OpenCV打造实时识别应用

我在使用这个 app 随机识别桌子上的东西：）

谷歌刚刚发布了新的 TensorFlow 对象识别（Object Detection）API。第一版发布包括：

一些预训练模型（特别是一些可以运行在移动终端的轻量模型）

配有一个模型的 Jupyter notebook 示例

一些可用于模型再训练的很方便的脚本，比如，在你自己的数据集上。

首先，我们看一下 TensorFlow 的 models repo，再看看他们发布的 notebook。

玩转谷歌物体识别API，用TensorFlow和OpenCV打造实时识别应用

它基本上用预训练模型把对象识别从头到尾走了一遍。在示例中，他们用了“ SSD with Mobilenet”模型，不过你也可以在他们称为“TensorFlow detection model zoo”的地方下载其他预训练模型。顺便说一句，这些模型在 COCO 数据集上训练，随不同的模型速度（慢、中、快）和模型性能（mAP-平均精度）而不同。

接着我照示例跑了一下。示例已经写得很清楚了，它无非是做了以下几件事:

1.导入TensorFlow 、PIL 这样的package；

2.定义一些变量，比如级数、模型名称等等；

3.下载冻结模型（.pb-protobuf）,load 到 memory；

4.load一些辅助代码，比如标签翻译索引；

5.对两张测试图像的识别代码。

注意：跑示例之前，留意一下 setup note。需要特别注意 protobuf compilation：

# Fromtensorflow/models/

protocobject_detection/protos/*.proto --python_out=.

不运行这个命令，示例就无效。

接着我相应调整了他们的代码：

删掉了模型下载的部分
PIL 也用不着了，因为 OpenCV 里的视频流已经是 numpy array 了（PIL 很占资源）
不保留 TensorFLow session 的 with 语句，同样是因为太占资源，尤其是每个视频流之后 session 需要启动的时候。

然后，我将 OpenCV 连接到了我自己的网络摄像头。有很多关于这一步的示例，官方文件里也有。这里我就不详述了。最有趣的部分是我为了提升 app 性能做的优化。对我来说，就是对 fps（每秒帧数）的追求。

总的来说，OpenCV 上很多文件的直接应用效果并不是很好，例如，OpenCV 的很多功能都是 I/O 受限的。因此，我不得不想出几种方法来解决这个问题：

从网络摄像头读取帧会引发大量输入输出。我最初的想法是把这部分直接移植到另外一个Python multiprocessing 中，但这个方法并不奏效。Stackoverflow 上对这个问题有所解释，不过我还没有深究过。幸运的是，我从 Adrian Rosebrock 的网站 pyimagesearch 上找到了一个非常好的方法，即利用 threading，大大提高了fps。如果你想了解 multiprocessing 和 threading 的区别，Stackoverflow 上有非常好的回答。

每次应用程序开始时，下载固化好的模型都需要耗费大量内存。我已经在每次运行中都使用了一个 TF session，但速度仍然非常慢。我是如何解决这个问题的呢？方法非常简单。我使用 multiprocessing library 把目标检测部分的庞大工作量移到多个进程中。应用之初速度还会有些慢，因为每个进程都需要下载模型到内存并启动一个TF session，但之后，多进程同时工作的效率就显现出来了。

减小视频流中帧的宽度和高度也能大量提升 fps。

注意：如果你和我一样，用的是 Mac OSX 和 OpenCV 3.1，OpenCV 的 VideoCapture 过一段时间就会 crash 一次。可以试着用回到 OpenCV 3.0。

赶快自己去试试吧，上手确实不难。接下来我想做的是用这个 API 训练我自己的数据集，还想把预训练的模型用在我设想的其他 app 上。fps rate 还不够优化。OpenCV 里还有不少瓶颈，目前我没有什么好办法，但有一些替代方案，比如用 WebRTC，可惜它是 web-based。另外，我也希望使用称为 async 的 asynchronous 方法来提升我的 fps rate。敬请期待吧！

点击阅读原文查看新智元招聘信息

以上是关于玩转谷歌物体识别API，用TensorFlow和OpenCV打造实时识别应用的主要内容，如果未能解决你的问题，请参考以下文章

玩转谷歌优化（Google Optimize）

谷歌开源的TensorFlow Object Detection API视频物体识别系统实现教程

谷歌开源的TensorFlow Object Detection API视频物体识别系统实现[超详细教程] ubuntu16.04版本

球迷如何在Linux纯命令行玩转谷歌浏览器，边看欧洲杯，边看足球宝贝

Tensorflow object detection API 搭建属于自己的物体识别模型