CRNN文本识别网络

Posted 2022-01-02 GoAl的博客

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CRNN文本识别网络相关的知识，希望对你有一定的参考价值。

【CRNN论文下载】

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

CRNN介绍：

近几年来，CRNN在计算机视觉文本识别领域取得不错成果。CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。CRNN网络实现了不定长验证结合CNN和RNN网络结构，使用双向LSTM循环网络进行时序训练，并在最后引入CTC损失函数来实现端对端的不定长序列识别，

CRNN网络结构：

网络结构包含三部分，从下到上依次为：

卷积层。作用是从输入图像中提取特征序列。

循环层。作用是预测从卷积层获取的特征序列的标签（真实值）分布。

转录层。作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。

1.卷积层

卷积：提取图像特征池化：为了降维减少计算量

CRNN卷积层由标准的CNN模型中的卷积层和最大池化层组成，自动提取出输入图像的特征序列。

与普通CNN网络不同的是，CRNN在训练之前， 先把输入图像缩放到相同高度（图像宽度维持原样），论文中使用的高度值是32。

论文中该CNN结构输出的特征图大小为，若输入图片高度为32，宽度为100，则特征图的大小为（1， 24， 512）。这个结果可以认为图片从左到右被分割成了24块，每块大小的特征维度为512。

提取的特征序列中的向量是从特征图上从左到右按照顺序生成的，每个特征向量表示了图像上一定宽度上的特征，论文中使用的这 个宽度是1,就是单个像素。

特别强调序列的顺序是因为在之后的循环层中，先后顺序是LSTM训练中的一个重要参考量。

2.循环层

循环层由一个双向LSTM循环神经网络构成，预测特征序列中的每一个特征向量的标签分布（真实结果的概率列表），循环层的误差被反向传播，最后会转换成特征序列，再把特征序列反馈到卷积层，这个转换操作由论文中定义的“Map-to-Sequence”自定义网络层完成，作为卷积层和循环层之间连接的桥梁。

LSTM（长短期记忆网络）则是一种特殊结构的RNN，用于解决RNN的长期依赖问题，普通RNN会出现“梯度消失”或“梯度爆炸”的问题，不能获取更多上下文信息，所以 CRNN 中使用的是 LSTM，允许捕获长距离依赖。LSTM单元由输入门、遗忘门和输出门组成。

RNN原理参考：水很深的深度学习-Task05循环神经网络RNN_GoAl的博客-CSDN博客

LSTM原理参考：LSTM原理介绍_GoAl的博客-CSDN博客

3.转录层

转录是将LSTM网络预测的特征序列的所有可能的结果进行整合，转换为最终结果的过程。论文中实在双向LSTM网络的最后连接上一个CTC模型，做到端对端的识别。

CTC模型（Connectionist temporal classification）联接时间分类，CTC可以执行端到端的训练，不要求训练数据对齐和一一标注，直接输出不定长的序列结果。

CTC一般连接在RNN网络的最后一层用于序列学习和训练。对于一段长度为T的序列来说，每个样本点t（t远大于T）在RNN网络的最后一层都会输出一个softmax向量，表示该样本点的预测概率，所有样本点的这些概率传输给CTC模型后，输出最可能的标签，再经过去除空格（blank）和去重操作，就可以得到最终的序列标签。

CRNN完整网络结构图：

从整个网络中可以看出，卷积层是由一系列的卷积、最大池化、批量归一化等操作组成，由标准的CNN模型中的卷积层和最大池化层组成，结构类似于VGG网络。

4.CTC介绍

CTC是一种Loss计算方法，用CTC代替Softmax Loss，训练样本无需对齐。

CTC训练流程和传统的神经网络类似，构建损失函数，然后根据BP算法进行训练，不同之处在于传统的神经网络的训练准则是针对每帧数据，即每帧数据的训练误差最小，而CTC的训练准则是基于序列的，比如最大化 p(l|x) ，序列化的概率求解比较复杂，因为一个输出序列可以对应很多的路径，所有引入前后向算法来简化计算。

CTC特点：引入blank字符，解决有些位置没有字符的问题,通过递推，快速计算梯度