文本检测和识别 代码结构梳理
Posted allen-rg
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本检测和识别 代码结构梳理相关的知识,希望对你有一定的参考价值。
前言:
最近学习了一些OCR相关的基础知识,包含目标检测和自然语言处理。
正好,在数字中国有相关的比赛:
https://www.datafountain.cn/competitions/334/details/rule
所以想动手实践一下,实际中发现,对于数据标签的处理和整个检测和识别的流程并不熟悉,自己从头去搞还是有很大难度。
幸好,有大佬们之前开源的一些baseline可以参考,有检测的也有识别的,对于真真理解OCR识别是有帮助的。
1)最初baseline AdvancedEAST + CRNN
https://github.com/Tianxiaomo/Cultural_Inheritance-Recognizing_Chinese_Calligraphy_in_Multiple_Scenarios
2)一个新的baseline:EAST + ocr_densenet
https://github.com/DataFountainCode/huawei_code_share
还有最原始的开源的EAST 源码,advanced EAST源码
https://github.com/argman/EAST
https://github.com/huoyijie/AdvancedEAST
CRNN 源码
https://github.com/bgshih/crnn
以及densenet 等,都是很好的学习资源
https://github.com/yinchangchang/ocr_densenet
下面,先对EAST 的整个代码进行梳理:
训练样本格式:
img_1.jpg
img_1.txt
img_2.jpg
img_2.txt
即训练集包含图像以及图像对应的标注信息(4个位置坐标和文字)
以上是关于文本检测和识别 代码结构梳理的主要内容,如果未能解决你的问题,请参考以下文章
文本的检测识别实战:使用 Tesseract 进行 OpenCV OCR 和文本识别