文本检测和识别代码结构梳理

Posted 2021-02-10 allen-rg

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本检测和识别代码结构梳理相关的知识，希望对你有一定的参考价值。

前言：

最近学习了一些OCR相关的基础知识，包含目标检测和自然语言处理。

正好，在数字中国有相关的比赛：

https://www.datafountain.cn/competitions/334/details/rule

所以想动手实践一下，实际中发现，对于数据标签的处理和整个检测和识别的流程并不熟悉，自己从头去搞还是有很大难度。

幸好，有大佬们之前开源的一些baseline可以参考，有检测的也有识别的，对于真真理解OCR识别是有帮助的。

1）最初baseline AdvancedEAST + CRNN
https://github.com/Tianxiaomo/Cultural_Inheritance-Recognizing_Chinese_Calligraphy_in_Multiple_Scenarios

2）一个新的baseline：EAST + ocr_densenet

https://github.com/DataFountainCode/huawei_code_share

还有最原始的开源的EAST 源码，advanced EAST源码

https://github.com/argman/EAST

https://github.com/huoyijie/AdvancedEAST

CRNN 源码

https://github.com/bgshih/crnn

以及densenet 等，都是很好的学习资源

下面，先对EAST 的整个代码进行梳理：
训练样本格式：

img_1.jpg

img_1.txt

img_2.jpg

img_2.txt

即训练集包含图像以及图像对应的标注信息（4个位置坐标和文字）

以上是关于文本检测和识别代码结构梳理的主要内容，如果未能解决你的问题，请参考以下文章

文本检测和识别 代码结构梳理