文本算法-Ctpn(用于进行文本框的提取)

Posted my-love-is-python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本算法-Ctpn(用于进行文本框的提取)相关的知识,希望对你有一定的参考价值。

CTPN是CNN+RNN的结合,CNN主要是用于文本框的提取,RNN将中间层的输入结果进行改变,保证文本框的上下文具有联系

网络结构 

技术图片

网络结构说明: 首先使用VGG,将原来图片的大小,缩小为1/16,因此每一个点输出结果是2*10概率和2*10的位置信息 

技术图片

标签制作: 构造16个像素,从上到下构造anchor,根据真实标签来构造reg和cls的标签 

技术图片

损失值构造:

技术图片

损失值说明: 第一个损失值使用的是预测框的概率损失值,第二个损失值用于计算与中心点的差距以及选框的高度reg,第三个损失值用于表示选框左右的位置

技术图片 

Ctpn的predict步骤 

第一步: 通过上述的网络,获得输出的cls和reg结果,根据结果进行阈值的筛选,保留可能存在物体的选框,根据cls得分排序,使用nms去除重复框,作为最终每个字的选框 

技术图片

第二步: 这里将每个字的选框进行连接,最终获得每一行的大选框 

 

技术图片

代码说明:将在明天进行展示 

 

以上是关于文本算法-Ctpn(用于进行文本框的提取)的主要内容,如果未能解决你的问题,请参考以下文章

CTPN网络理解

用于克隆文本框的 Grails Richui 自动完成功能

Qt - 用于文本框的内容

Jelly Bean WebView 不适用于文本框的 HTML maxlength 属性

OCR技术系列之六文本检测CTPN的代码实现

如何调整PPT中文本框的位置