R2CNN论文思路记录

Posted ywheunji

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R2CNN论文思路记录相关的知识,希望对你有一定的参考价值。

Rotational region cnn

 

我们的目标是检测任意方向的场景文本,与RRPN类似,我们的网络也基于FasterR-CNN ,但我们采用不同的策略,而不是产生倾斜角度建议。

我们认为RPN有资格生成文本候选,并根据RPN提出的候选文本预测方向信息

检测步骤:

技术图片

如图所示:a.原图片

     b.通过rpn得到的text regions

     c.预测轴对齐框和倾斜框

     d.对倾斜框进行非极大值抑制得到预测结果

 

整个检测网络的结构如图:

技术图片

提取特征的步骤跟之前的RCNN系列一样,基础CNN网络提取出特征,

然后由RPN提取出文本区域(RPN生成包围任意方向文本的轴对齐边界框),这里已经生成轴对齐框,送入ROI POOLING层进行多个尺度的池化操作(7*7,3*11,11*3)原先的Faster rcnn只有7*7,这三种是专门用来检测常见的文本框。并将pooled特征串联;

通过两个全连接层之后,进行

1.文本/非文本的分类

2.轴对齐框包围的倾斜框的预测,倾斜框的预测(x1,y1,x2,y2,h)这里解释下,倾斜框的坐标表示,通过矩形框顺时针的前两个点的坐标来确定一条线,然后通过h来确定宽度。

3.倾斜框的非极大值抑制,得到结果

 倾斜框的坐标表示如图:

技术图片

对于RPN做出的改动:

更多的小场景检测。通过在RPN中利用较小的anchor比例来解决这一问题。

在Faster R-CNN中的原始anchor 缩放是(8,16,32)

我们研究了两种策略:

  a)将anchor比例缩放更改为较小的尺寸,并使用(4,8,16);

  b)增加一个新的anchor缩放并利用(4,8,16,32)
对roi pooling做出的改动:

加入11*3和3*11,使用不同的roi pooling大小获取更多特征, pooled 特征被连接在一起以便进一步检测;

 

R2CNN的loss函数:

技术图片

分为两部分,Lcls是分类的loss,下面分别是轴对齐框的Loss和倾斜框的Loss

 

以上是关于R2CNN论文思路记录的主要内容,如果未能解决你的问题,请参考以下文章

任意角度的场景文本检测论文简单总结

2023美赛春季赛D题思路数据代码论文分享

<论文写作>小论文的写作思路

用Python30秒自动获取指定关键词的国际论文?思路清奇的我是这样做的......

2021年深圳杯详细思路+资料+论文

NeurIPS顶会接收,PyTorch官方论文首次曝光完整设计思路