一款优秀的中文识别库——ocr

Posted AI浩

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一款优秀的中文识别库——ocr相关的知识,希望对你有一定的参考价值。

CnOCR 是 Python 3 下的文字识别(Optical Character Recognition,简称OCR)工具包,支持简体中文、繁体中文(部分模型)、英文和数字的常见字符识别,支持竖排文字的识别。自带了20+个训练好的识别模型,适用于不同应用场景,安装后即可直接使用。同时,CnOCR也提供简单的训练命令供使用者训练自己的模型。欢迎加入 交流群。
github地址:https://github.com/breezedeus/cnocr

安装简单

pip install cnocr

各种场景的调用示例
常见的图片识别
所有参数都使用默认值即可。如果发现效果不够好,多调整下各个参数看效果,最终往往能获得比较理想的精度。

from cnocr import CnOcr

img_fp = './docs/examples/huochepiao.jpeg'
ocr = CnOcr()  # 所有参数都使用默认值
out = ocr.ocr(img_fp)

print(out)


排版简单的印刷体截图图片识别
针对 排版简单的印刷体文字图片,如截图图片,扫描件图片等,可使用 det_model_name=‘naive_det’,相当于不使用文本检测模型,而使用简单的规则进行分行。

使用 det_model_name=‘naive_det’ 的最大优势是速度快,劣势是对图片比较挑剔。如何判断是否该使用此检测模型呢?最简单的方式就是拿应用图片试试效果,效果好就用,不好就不用。

from cnocr import CnOcr

img_fp = './docs/examples/multi-line_cn1.png'
ocr = CnOcr(det_model_name='naive_det') 
out = ocr.ocr(img_fp)

print(out)

识别结果:

更多详见:
https://cnocr.readthedocs.io/zh/latest/

具体的测试,以后再写,先做个记录。

以上是关于一款优秀的中文识别库——ocr的主要内容,如果未能解决你的问题,请参考以下文章

图像识别基于OCR识别系统matlab源码

印刷字符识别基于matlab OCR印刷字母+数字识别含Matlab源码 1861期

印刷字符识别基于matlab OCR印刷字母+数字识别含Matlab源码 287期

集成利用tesseract.exe进行ocr

OCR场景文本识别:文字检测+文字识别

OCR 基本知识