深度学习与图神经网络核心技术实践应用高级研修班-Day4基于深度学习的目标检测(object_detection)
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习与图神经网络核心技术实践应用高级研修班-Day4基于深度学习的目标检测(object_detection)相关的知识,希望对你有一定的参考价值。
基于深度学习的目标检测(object_detection)
1. 目标检测相关介绍
目标检测要解决的问题
- 适应不同尺度
- 多样化
2. RCNN系列模型
(1) 输入测试图像
(2) 利用Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域
(3) 因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放成统一的227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征
(4) 将每个Region Proposal提取到的CNN特征输入到SVM进行分类
R-CNN:训练过程
步骤一:
- 训练一个分类模型。
步骤二:
- 对该模型做fine-tuning
- 将分类数从1000改为20
- 去掉最后一个全连接层
步骤三:特征提取
- 提取图像的所有候选框(选择性搜索)
- 对于每一个区域:修正区域大小以适合CNN的输入,做一次前向运算,
将第五个池化层的输出(就是对候选框提取到的特征)存到硬盘
步骤四:训练一个SVM分类器(二分类)来判断这个候选框里物体的类别每个类别对应一个SVM,判断是不是属于这个类别,是就是positive,反之nagative
步骤五:使用回归器精细修正候选框位置:对于每一个类,训练一个线性回归模型去判定这个框是否框得完美。
R-CNN:关键性技术
Select Search 算法
step0:生成区域集R
step1:计算区域集R里每个相邻区域的相似度S={s1,s2,…}
step2:找出相似度最高的两个区域,将其合并为新集,添加进R
step3:从S中移除所有与step2中有关的子集
step4:计算新集与所有子集的相似度
step5:跳至step2,直至S为空
Fast-rcnn
Fast R-CNN的网络有两个输出层,一个softmax,一个bbox regressor(相对的R-CNN,SPP Net中分类和回归是两个部分,这里集成在了同一个网络中)。而且加入了一个RoIpooling layer(类似于一个尺度的SPP layer)。
注意:Fast R-CNN提取建议区域的方法依然是select search。
Fast-RCNN:关键性技术
ROI Pooling:
输入图片size不同导致feature map尺寸也不同,不能直接接到一个全连接层进行分类,但是可以加入这个神奇的ROI Pooling层,对每个region都提取一个固定维度的特征表示,再通过正常的softmax进行类型识别。
ROI pooling采用SPP Net的方式实现。
Fast-rcnn
Fast-RCNN:关键性技术
SPP Net
- 只对原图进行一次卷积得到整张图的feature map,然后找到每个候选框feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。节省了大量的计算时间,比R-CNN有一百倍左右的提速。
Fast R-CNN存在的问题:存在瓶颈:选择性搜索,找出所有的候选框,这个也非常耗时。那我们能不能找出一个更加高效的方法来求出这些候选框呢?
解决:加入一个提取边缘的神经网络,也就说找到候选框的工作也交给神经网络来做了。
做这样的任务的神经网络叫做Region Proposal Network(RPN)。
具体做法:
- 将RPN放在最后一个卷积层的后面
- RPN直接训练得到候选区域
网络结构:
在region proposal + CNN分类的这种目标检测框架中,region proposal质量好坏直接影响到目标检测任务的精度。
Region Proposal Networks (RPN)
3 ∗ 3 3*3 3∗3滑窗对应的每个特征区域同时预测输入图像3种尺度(128,256,512),3种长宽比(1:1,1:2,2:1)的region proposal,这种映射的机制称为anchor。所以对于这个 40 ∗ 60 40*60 40∗60的feature map,总共有约20000( 40 ∗ 60 ∗ 9 40*60*9 40∗60∗9)个anchor,也就是预测20000个region proposal.
Region Proposal Networks (RPN)
在feature map上滑动窗口
- 建一个神经网络用于物体分类+框位置的回归
- 滑动窗口的位置提供了物体的大体位置信息
- 框的回归提供了框更精确的位置
3. YOLO系列模型
YOLO:You Only Look Once: Unified, Real-Time Object Detection
核心思想
YOLO 的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box(边界框) 的位置及其所属的类别。
网络架构
BBox实现策略
YOLO 将一幅图像分成 SxS 个网格,如果某个目标的中心落在这个网格中,则这个网格就负责预测这个 目标。每个网格要预测 B 个 bounding box,每个 bounding box 除了要回归自身的位置之外,还要附带预测一个 confidence 值。这个 confidence 代表了所预测的 box 中含有 目标 的置信度和这个B box 预测的准确度这两重信息。
其中如果有 object 落在一个 grid cell 里,Pr(Object)取 1,否则取 0。
P(Class|object)
每个小格会对应C个概率值,找出最大概率对应的类P(Class|object)如图,认为小格中包含该物体或者该物体的一部分。在测试时,每个网格预测的 class 信息和 box预测的 confidence信息相乘,就得到每个 bounding box 的 class-specific confidence score,如下公式所示。
YOLO的输出
YOLO的训练
Loss 设计的思考
损失函数的设计目标就是让坐标,confidence,classification 这个三个方面达到很好的平衡。
简单的全部采用了sum-squared error loss来做这件事会有以下不足:
(1)8维的localization error和20维的classification error同等重要显然是不合理的。
(2) 如果一些栅格中没有object,那么就会将这些栅格中的bounding box的confidence 置为0,相比于较少的有object的栅格,这些不包含物体的栅格对梯度更新的贡献会远大于包含物体的栅格对梯度更新的贡献,这会导致网络不稳定甚至发散。
解决方案如下: 更重视8维的坐标预测,给这些损失前面赋予更大的权重 ,对没有object的box的confidence loss赋予小的权重。对不同大小的bbox预测中,小box预测偏相同的尺寸对IOU的影响更大。 为了缓和这个问题,将box的width和height取平方根代替原本的height和width。
如图:small bbox的横轴值较小,发生偏移时,反应到y轴上的loss(图绿色)比big box(图红色)要大。
• Loss 方程
对于不存在对应目标的边界框,其误差项就是只有置信度,左标项误差是没法计算的。而只有当一个单元格内确实存在目标时,才计算分类误差项,否则该项也是无法计算的。
论文中将一张图像分为7×7=49个栅格,每一个栅格预测B=2个boxes(每个box有 5个预测值),同时C=20个类别。最后的预测是7×7×30 { S * S * ( B * 5 + C) }的Tensor。
YOLO的预测
网络架构
对于boxes首先将小于置信度阈值的值归0,然后分别对置信度值采用NMS,这里NMS处理结果不是剔除,而是将其置信度值归为0。
最后才是确定各个box的类别:每个预测框根据类别置信度选取置信度最大的那个类别作为其预测标签,当其置信度值不为0时,才做为检测结果输出。
YOLO vs RCNN
Yolo在与其他算法的对比
以上是关于深度学习与图神经网络核心技术实践应用高级研修班-Day4基于深度学习的目标检测(object_detection)的主要内容,如果未能解决你的问题,请参考以下文章
深度学习与图神经网络核心技术实践应用高级研修班-Day3迁移学习(Transfer Learning)
深度学习与图神经网络核心技术实践应用高级研修班-Day1典型深度神经网络模型
深度学习与图神经网络核心技术实践应用高级研修班-Day1Tensorflow和Pytorch
深度学习与图神经网络核心技术实践应用高级研修班-Day2基于Keras的深度学习程序开发