Bounding Box回归

Posted 2021-03-25 liuboblog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Bounding Box回归相关的知识，希望对你有一定的参考价值。

简介

Bounding Box非常重要，在rcnn， fast rcnn, faster rcnn, yolo, r-fcn, ssd，到今年cvpr最新的yolo9000都会用到。
先看图
技术图片

对于上图，绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth 更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调（注意这个字眼--微调）这个窗口的。

1、边框回归是什么？

对于窗口一般使用四维向量（x, y, w, h）来表示，分别表示窗口的中心点坐标和宽高（注意这里是中心点，其实都一样）。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G。
技术图片
边框回归的目的既是：给定（Px, Py, Pw, Ph）寻找一种映射f，使得f(Px,Py,Pw,Ph) = (Gx,Gy,Gw,Gh)并且（Gx,Gy,Gw,Gh）约等于f。

做边框回归

那么经过何种变换才能从图 2 中的窗口 P 变为窗口G呢？比较简单的思路就是：平移加尺度放缩。
第一步：先做平移
技术图片
其中
第二步：再做尺度缩放

其中

边框回归学习的不是最终的G估计值，而是技术图片
下一步就是设计算法得四个映射

线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y≈WX 。那么 Bounding-box 中我们的输入以及输出分别是什么呢？

输入：
技术图片其实真正的输入是这个窗口对应的 CNN 特征，也就是 R-CNN 中的 Pool5 feature（特征向量）。(注：训练阶段输入还包括 Ground Truth，也就是下边提到的t?=(tx,ty,tw,th))

输出：
这四个值应该是经过 Ground Truth 和 Proposal 计算得到的真正需要的平移量(tx,ty) 和尺度缩放(tw,th) 。
这也就是 R-CNN 中的(6)~(9)：
技术图片
目标函数为是输入Proposal的特征向量，W*是要学习的参数，d(p)是预测值，我们要让预测值跟真实值t?=(tx,ty,tw,th)差距最小，得到损失函数为：
所以结果就很明显了，t*是label而w是权值，fai是输入，它们来做一个回归，利用梯度下降法或者最小二乘法就可以得到 w?。

以上是关于Bounding Box回归的主要内容，如果未能解决你的问题，请参考以下文章