yolo算法是啥?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了yolo算法是啥?相关的知识,希望对你有一定的参考价值。

Yolo是一种目标检测算法。

目标检测的任务是从图片中找出物体并给出其类别和位置,对于单张图片,输出为图片中包含的N个物体的每个物体的中心位置(x,y)、宽(w)、高(h)以及其类别。

Yolo的预测基于整个图片,一次性输出所有检测到的目标信号,包括其类别和位置。Yolo首先将图片分割为sxs个相同大小的grid。

介绍

Yolo只要求grid中识别的物体的中心必须在这个grid内(具体来说,若某个目标的中心点位于一个grid内,该grid输出该目标类别的概率为1,所有其他grid对该目标预测概率设置为0)。

实现方法:让sxs个框每个都预测出B个boungding box,bounding box有5个量,分别为物体的x,y,h,w和预测的置信度;每个grid预测B个bounding box和物体类别,类别使用one-hot表示。

参考技术A

YOLO是一种目标检测的算法。
YOLO将对象检测重新定义为一个回归问题,所以它非常快,不需要复杂的管道。它比“R-CNN”快1000倍,比“Fast R-CNN”快100倍。能够处理实时的视频流,延迟能够小于25毫秒,精度是以前实时系统的两倍多,YOLO遵循的是“端到端深度学习”的实践。它将单个卷积神经网络(CNN)应用于整个图像,将图像分成网格,并预测每个网格的类概率和边界框。

例如,以一个100x100的图像为例。我们把它分成网格,比如7x7。然后,对于每个网格,网络都会预测一个边界框和与每个类别(汽车,行人,交通信号灯等)相对应的概率。

YOLO 的输出是啥?

【中文标题】YOLO 的输出是啥?【英文标题】:What's the output of YOLO?YOLO 的输出是什么? 【发布时间】:2021-01-21 01:41:53 【问题描述】:

我正在尝试使用 YOLO 来检测 Android 应用程序中的车牌。

所以我在 Google Colab 中训练了一个 YOLOv3 和一个 YOLOv4 模型。我使用wonderfull project of Hunglc007 将这两个模型转换为 TensorFlow Lite,我还验证了它们是否正常工作并得到以下结果:

但是当我尝试了解模型的输出以在我的应用中调整它时,我使用netron 得到了这个:

当模型被训练为只检测一个对象时,为什么我有 2 个输出?

为什么输出的格式是这样的,这个[1,1,4]代表什么?

编辑

bbox的代码可以在here找到

boxes, scores, classes, valid_detections = tf.image.combined_non_max_suppression(
            boxes=tf.reshape(boxes, (tf.shape(boxes)[0], -1, 1, 4)),
            scores=tf.reshape(
                pred_conf, (tf.shape(pred_conf)[0], -1, tf.shape(pred_conf)[-1])),
            max_output_size_per_class=50,
            max_total_size=50,
            iou_threshold=FLAGS.iou,
            score_threshold=FLAGS.score
        )
        pred_bbox = [boxes.numpy(), scores.numpy(), classes.numpy(), valid_detections.numpy()]
        image = utils.draw_bbox(original_image, pred_bbox)
        # image = utils.draw_bbox(image_data*255, pred_bbox)
        image = Image.fromarray(image.astype(np.uint8))
        image.show()
        image = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2RGB)
        cv2.imwrite(FLAGS.output + 'detection' + str(count) + '.png', image)

【问题讨论】:

您能否提供有关您自己的代码的更多信息,例如显示最后一个数字的部分。 带有 bbox 的图像的代码或输入和输出信息的代码? 生成这个的代码。 i.stack.imgur.com/hYtkT.png 它是lutzroeder.github.io/netron 我在编辑中添加它。它是一个了解模型输入和输出的工具。您只需将 .tflite 放入其中,它就会为您提供所需的所有信息 【参考方案1】:

我不是 Netron 方面的专家,但通过检查问题及其预期输出,我发现它应该为每次检测产生两个输出;检测矩形和检测置信度。因此,您询问的两个输出可能是由 4 个浮点数定义的矩形 - 左上角、宽度和高度的两个坐标 - 以及一个浮点数的置信度。

【讨论】:

【参考方案2】:

这很明显。用于检测模型。通常,它应该至少给出 2 个输出:边界框和与边界框相关的类。 因此,(1,1,4) 是边界框的 4 结果。第一个数字 1 是根据您将图像提取到模型中的。由于您只有一个对象,因此第二个数字的输出为 1。此外,边界框的 YOLO 配置为 (x_center,y_center,width,height)

(1,1,1) 将是相同的,但现在 1 是您选择的类的标签。

【讨论】:

以上是关于yolo算法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

【目标检测算法解读】yolo系列算法二

YOLO(一) 算法的原理及演变

目标检测算法-YOLO算法纵向对比理解

深度学习YOLO系列算法

yolov2算法详解

YOLOU开源 | 汇集YOLO系列所有算法,集算法学习科研改进落地于一身!