rpn网络结构再分析

Posted 2020-10-21 去做点事情

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了rpn网络结构再分析相关的知识，希望对你有一定的参考价值。

这是rpn网络train阶段的网络结构图

rpn_conv1之前的网络是特征提取层，也是和fast rcnn共享的层。rpn_conv1是一层1*1的卷积，这一层是单独为rpn网络多提取一层特征，这一层之后就接两个输出channel层不同的1*1的卷积（即分别进行score的预测和坐标补偿值的预测），这样保证feature map的大小不变。

rpn_cls_score：bach_size*18*width*height

rpn_cls_score_reshape：batch_size*2*(9*width)*height

rpn_bbox_pred：batch_size*36*width*height。每4个channel对应一种类型的anchor（即一个尺寸和一个ratio），因为有9种类型的anchor，所有一共也就有36个channel。以前4个channel为例，第一个channel的feature map每一个值是每个位置中心点x方向的补偿值dx，第二个channel的feature map每一个值是每个位置中心点y方向的补偿值dy，第三个channel的feature map每一个值是每个位置宽度的补偿值dw，第四个channel的feature map每一个值是每个位置长度的补偿值dh。再来说一下这前四个channel的每个feature map，这4个channel的feature map的相对应位置都是对应的一个anchor，比如4个channel的第一个值都是对应的第一种类型anchor的第一个anchor。每个feature map是width*height大小，也就有width*height个值，生成rpn本身就是在这个feature map上进行滑动生成（width*height*anchor类别数）个anchor，这样的话，第一个feature map的第一个值对应的应该是第一种类型的anchor在这个位置上dx补偿值。

为什么不直接从rpn_conv1生成rpn_cls_score_reshape？

channel变成2很好实现，但feature map的宽度是个问题。因为rpn_cls_score_reshape的feature map的宽度是9*width，而rpn_conv1是width，直接卷积变成宽度的9倍，我目前还没看到过，reshape成9倍就很好实现。并且对于后面的rpn生成也有帮助，这个后续还要写一些东西

那为什么又要转成rpn_cls_score_reshape的形状呢？

主要是为了分成两类，然后计算概率值，最开始只是一个score值

以上是关于rpn网络结构再分析的主要内容，如果未能解决你的问题，请参考以下文章

faster-rcnn 之 RPN网络的结构解析

深度学习Faster-RCNN网络

Faster R-CNN 的 RPN 是啥子?

RPN（Region Proposal Network）提取候选框

Faster RCNN超详细入门 02网络细节与训练方法（anchors，RPN，bbox,bounding box，Region proposal layer……）